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MOLECULES DECIDES NUCLEIQUES CODANT UNE DEXTRANE- 

SACCHARASE CATALYSANT LA SYMTHESE DE DEXTRANE 
PORTANT DES RAMIFICATIONS DE TYPE ALPHA-1,2 OSIDIQUES 



La presente invention releve du domaine de ia 
glycotechnologie et plus particulierement de la synthese d'oligosaccharides 
ou oligosides a effet prebiotique, therapeutique ou diagnostique. 

La presente invention porte sur des molecules d'acides 
nucleiques codant une enzyme ayant une activite de glycosyltransferase 
catalysant la synthese de dextranes ou d'oligosides portant des 
ramifications de type a(1 2) osidiques. 

L'invention porte en outre sur les enzymes synthetisees par 
les acides nucleiques selon l'invention, ainsi que sur leurs systemes 
d'expression dans des cellules procaryotes ou eucaryotes. Elles portent 
enfin sur ('utilisation desdites enzymes dans la production 
d'oligosaccharides dans ("alimentation, ou en tant que principe actif de 
produits therapeutiques et/ou cosmetiques. 

Les oligosides et heterooligosides jouent le role de signaux de 
reconnaissance et d'effecteur chez I'animal comme dans les plantes (on 
parle alors d'oligosaccharines), en se liant specifiquement a des lectines, 
des glycosyltransferases, des glycosidases, des molecules d'adhesion, 
etc... Ainsi, les determinants antigeniques des groupes sanguins sont des 
osides, et notre defense centre nombre de bacteries pathogenes est dirigee 
contre les structures osidiques de I'enveloppe bacterienne. Par ailleurs, 
I'une des raisons majeures du rejet des xenogreffes est Existence de 
structures osidiques propres a chaque espece. Ces proprietes, ainsi que 
les connaissances acquises ces dernieres annees sur les 
glycosyltransferases et les lectines, contribuent a faire de certains 
oligosides des candidats de choix pour la therapeutique ou ia prophylaxie 
des desordres lies a I'equilibre microbiologique de differents organes tels 
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I'intestin, ou la peau. Par exemple, les oligosides constituent une alternative 
interessante a ('utilisation de microorganismes et d'antibiotiques pour 
reguier la composition de la flore intestinale (effet prebiotique). Certains 
oligosides peuvent etre consideres comme des "fibres solubles" lorsqu'ils 
ne sont pas metabolises par les enzymes digestives humaines et animales 
; en gagnant le colon, ils interagissent avec la flore microbienne et affectent 
specifiquement . la croissance et I'adhesion de certaines especes. 
Incorporees a faible dose (moins de 1 %) dans I'alimentation, certaines de 
ces molecules osidiques ameliorent Petat de sante et stimulent la prise de 
poids des animaux. 

Une revue des differentes glycosyltransferases, leur structure 
et leur activite, est decrite dans Vincent Monchois et al. (ref. 1). 
Brievement : 

a) II apparaTt que la structure des glycosyltransferases et/ou * 
dextrane-saccharases etudiees est tres conservee et est constituee, 
partant de la partie aminee de la proteine, d'une sequence signal, d'un 
domaine variable, d'un domaine catalytique et d'un domaine de liaison au 
glucane. 

b) Les glucooligosides (GOS) sont synthetisables par des 
glycosyltransferases telles les dextrane-saccharases, a partir de substrats 
peu couteux tel le saccharose et en presence d'un sucre accepteur de 
glucose. D'autres substrats, tels Ta-D-fluoro-glucose, le paranitrophenyl-a- 
D-glucopyranoside, Ta-D-glucopyranoside-a-D-sorbofuranoside ou le 4-0- 
a-D-galactopyranosylsucrose peuvent egalement etre utilises. 

Ces enzymes catalysent a partir du substrat le transfer! 
d'unites glucose sur des molecules acceptrices. En presence d ! un 
accepteur de glucose tel le maltose, ou Tisomaltose, les 
glycosyltransferases catalysent la synthese d'oligosaccharides de bas 
poids moleculaire comprenant majoritairement des chaTnes de 3 a 7 
glucoses. En revanche, en absence d'accepteur, I'enzyme synthetise des 
glucanes de haut poids moleculaire de type dextrane. 
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c) Les structures et la fonction des glucanes ou des oligosides 
synthetises par les glycosyltransferases dependent de la souche 
bacterienne productrice. 

Dans I'ensemble de ce texte, on appellera de facon generique 
des glycosyltransferases les differentes enzymes capables de catalyser la 
synthese de polymeres de glucose a partir de saccharose. Elles sont 
generalement produites par des souches bacteriennes de type 
Leuconostoc, Lactococcus, Streptococcus ou Neisseria. La taille et la 
structure des glucanes produits dependent de la souche productrice. 

Les unites de glucose sont couplees par des liaisons 
osidiques a(1-»6) comme dans le dextrane, par des liaisons a(1-*3), 
comme dans le cas du mutane, ou par une alternance des deux types 
(alternane). 

De la meme facon, I'existence et la nature des ramifications, 
leur longueur et leur position varient selon I'origine de la souche 
productrice. 

Les glycosyltransferases produisant des glucanes ou des 
GOS contenant au moins 50 % de liaison a(1-»6) sont appelees dextrane- 
saccharases. Celles ci sont produites notamment par des bacteries de type 
Leuconostoc mesenteroides. 

d) La dextrane-saccharase de L. mesenteroides NRRL B- 
1299 a la particularity de produire, quant a elle, un dextrane hautement 
ramifie dont la majorite des ramifications sont de type a(1->2). Utilisee en 
presence de saccharose et de maltose, molecule acceptrice de glucose, 
elle conduit a la formation de GOS presentant pour certains une liaison 
a(1^2) a leur extremite non reductrice et pour d^autres des ramifications 
a(1->2) sur les residus intermediates entre les extremites. A ce titre, ils 
resistent a la degradation par les enzymes (hydrolases) du tractus digestif 
superieur, chez I'homme et ('animal, et ne sont degrades que par les 
bacteroTdes, benefiques a I'organisme. Un phenomene identique se produit 
au niveau de la peau, permettant d'envisager des applications en 
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. cosmetologie, car c'est le desequilibre de la flore microbienne cutanee qui 
est a I'origine de nombreux problemes cosmetiques et dermatblogiques. 
C'est en raison de ces caracteristiques qu'ils sont designes ici par le terme 
GOS d'interet. 

Dans I'ensemble du texte, les polysaccharides synthetises par 
les glycosyltransferases selon I'invention sont soit des dextranes de haut 
poids moleculaire lorsque la reaction est realisee sans accepteur de 
glucose, soit des oligosides lorsque la reaction est realisee en presence 
d'accepteur de glucose tel le maltose ou Pisomaltose sans que cela soit 
necessairement specifie. En effet, la fonctionnalite de I'enzyme est 
caracterisee par la nature des liaisons glucose-glucose (a(1-^6), a(1->2)) 
ou autres et non par le poids moleculaire du polysaccharide synthetise. • 
Les dextrane-saccharases de L. mesenteroides trouvent deja 
de nombreuses applications dans I'iridustrie, et en particulier celles de la 1 * 
-souche NRRL. B-1299 pour lesquelles un precede de synthese des GOS 5 ' 
presentant des ramifications a(1->2) a ete decrit dans le brevet' 
EP 0325 872 B1.. -k 
Marguerite Dols et al. (2) ont montre que les GOS produits 'pa*' 
les dextrane-saccharases de cette souche sont en fait un melange d'au 
moins trois families de molecules similaires differant de fait par le nombre 
et , le positionnement des ramifications de type a(1-»2), ce qui amene 
I'hypothese de I'existence de differentes activites enzymatiques de type 
glycosyltransferase dans cette souche bacterienne. 

Compte tenu de I'interet industriel dans le domaine ' des 
aliments prebiotiques, en cosmetologie ou en pharmacie des GOS 
presentant des ramifications a(1->2) et rappele ci-dessus, la presente 
invention vise a isoler et caracteriser une enzyme particuliere parmi celles 
produites par L. mesenteroides NRRL B-1299 qui serait plus 
particulierement impliquee dans la synthese d'oligosides presentant les 
ramification a(1->2). L'identification et la caracterisation d'une telle enzyme 
offrent I'avantage, d'une part, de fournir un procede de production uniforme 
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et reproductible des GOS d'interet et, d'autre part, d'identifier !es 
caracteristiques essentielles de Fenzyme productrice de ces GOS dlnteret, 
afin, le cas echeant, d'ameliorer ies performances des produits de la 
reaction enzymatique en fonction de Putitisation envisagee. 
5 Le probleme technique sous-tend u dans la presente invention 

etait ainsi de pouvoir disposer d'une enzyme et done des acides nucleiques 
isoles codant cette enzyme permettant la production amelioree de GOS a 
ramifications a(1-*2). 

La presente invention apporte une solution technique aux 

10 differentes questions 6voquees ci-avant en fournissant une nouvelle 
dextrane-saccharase, appelee DSR-D codee par un gene dote d'une 
structure nouvelle et inattendue (dsrD) et capable de catalyser la synthese 
des glucanes ou des oligosaccharides contenant des ramifications cx(1-»2). 
Par structure nouvelle et inattendue, on entend le fait que I'organisation de 

15 la proteine differe de celle de toutes Ies autres glycosyltransferases 
decrites a ce jour (1) et dont le domaine catalytique est situe en amont d'un 
domaine de liaison au glucane, ce dernier constituant la partie carboxylique 
de la proteine. 

Ainsi, la presente invention porte sur un polypeptide isole 
20 ayant une activite enzymatique de glycosyitransferase apte a former des 

dextranes presentant des ramifications a(1->2), caracterise en ce qu'il 
comprend au moins un domaine de liaison au glucane et un domaine a 
activite catalytique situe en aval du domaine de liaison au glucane. Par 
situe en aval, on entend le fait que la partie aminee de la sequence a 
25 activite catalytique ou Domaine catalytique est proximale de la partie 
carboxylique du domaine de liaison au glucane. Ces deux domaines 
peuvent etre immediatement contigus ou au contraire separes par une 
region variable. 

La glycosyitransferase selon ('invention comporte de 
30 preference un peptide signal. 
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Dans .un mode de realisation de J'invention, la 
glycosyltransferase comprend deux domaines catalytiques situes de part et 
d'autre du. domaine de liaison au glucane. 

La presence d'un domaine a activite catalytique dans la partie 
carboxylique de I'enzyme est une caracteristique. essentielle de cette 
derniere dans sa capacite a former des liaisons a(1->2) osidiques. En effet, 
comme le mpntrent les experiences decrites ci-apres, la deletion de ce 
domaine dans une enzyme ayant au moins deux domaines catalytiques 
conduit a la production de glucanes ou d'oligosides ayant essentiellement 
des liaisons,, osidiques detype ct(1-*6) et depourvus .de liaisons de type 
a(1->2). , <• 

L'analyse comparative des differentes glycosyltransferases 
incluant les dextrane-saccharases a mis en evidence un tres fort degre de « r 
conservation de leur domaine catalytique. ^ 

V>T ,- ; - Le domaine catalytique situe dans la partie carboxy-terminale 
de la glycosyltransferase selon I'invention a une sequence presentant au 2* 
moins 44 % d'identite et 55 % de similarite avec les domaines catalytiques 
des autres glycosyltransferases analysees. En particulier, le domaine 
catalytique dans la partie carboxylique de la glycosyltransferase selon ~" 
. Tinvention a au moins 65 % d'identite et au moins 80 % de similarite avec la 
sequence ID No.. 1 representee dans la figure 7, la triade catalytique 
Asp/Glu/Asp en positions respectives 2210/2248/2322 etant conservee. 

Dans I'ensemble du texte, on entend par X% de similarite par 
rapport a une sequence de referenced fait que X% des acides amines 
sont identiques ou modifies par substitution conservative telle que definie 
dans le logicieL cPalignement des sequences decides amines ClustalW 
, (http:///bio web.oasteur.fr/docs/doc>qensoft/clustalw//) - . et que (1 OO-X) % 
peuvent etre deletes, substitues par d'autres amino-acides, ou encore que 
(100tX) % peuvent etre ajoutes a la sequence de reference/ 



Une structure primaire particuliere de I'enzyme selon 
I'invention est representee dans la sequence ID No. 2 qui represente une 
sequence de 2835 acides amines d'une dextrane-saccharase de L 
mesenteroides B1299. 

Cette dextrane-saccharase, nommee DSR-D, possede 
comme la plupart des glycosyltransferases et des dextrane-saccha rases 
une sequence signal, une region variable faiblement conservee, un 
domaine catalytique hautement conserve (CD1), un domaine de liaison au 
glucane (GBD) et un deuxieme domaine catalytique (CD2) dans la partie 
carboxylique de la proteine. DSR-D est la premiere glycosyltransferase 
analysee et presentant deux domaines catalytiques, dans la configuration 
presentee dans la figure 1 b). C'est egalement la premiere 
glycosyltransferase dont un domaine catalytique est situe dans la partie 
carboxylique de la proteine. 

La comparaison et I'analyse de la sequence de DSR-D avec 
les sequences des glycosyltransferases ou des dextrane-saccha rases deja 
decrites (1), ainsi que les moyens utilises a cette fin sont indiques dans 
I'exemple 2 detaille ci-apres. II y apparaTt clairement que si ('existence de 
deux domaines catalytiques differencie substantieliement DSR-D des 
autres enzymes, en revanche les sequences desdits domaines sont 
substantieliement conserves. En particulier, les acides amines 
necessaires a factivite catalytique sont conserves dans le deuxieme 
domaine catalytique, a savoir la triade Asp/Glu/Asp situee aux positions 
respectives 2210/2248/2322 de la sequence ID No. 2, representee dans la 
figure 8. 

Ainsi, ('invention porte egalement sur tout polypeptide isole 
ayant une activite catalytique de glycosylstransferase apte a former des 
dextranes ou des oligosaccharides ayant des ramifications a(1->2) tel 
qu'obtenu par modification, substitution, insertion ou deletion de sequences 
d'amino-acides mais comportant des sequences presentant au moins 80 % 
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Une structure primaire particuliere de I'enzyme selon ('invention est 
representee . daps la sequence ID No. 2 qui represente une sequence de 
2835 acides amines d'une dextrane-saccharase de L mesenteroides B1299. 

Cette dextrane-saccharase, nommee DSR-D, possede comme la 
plupart des glycosyltransferases et des dextrane-saccharases une sequence 
signal, une region variable faiblement conservee, un dornaine catalytique 
hautement conserve (CD1), un domaine de liaison au glucane (GBD) et un 
deuxieme domaine catalytique (CD2) dans la partie carboxylique de la proteine. 
DSR-D est la premiere glycosyltransferase analysee et presentant deux domaines 
catalytiques, dans la configuration presentee dans la figure 1 b). C'est egalement 
la premiere glycosyltransferase dont un domaine catalytique est situe dans la 
partie carboxylique de la proteine. 

La figure 1b fait apparaitre egalement que le domaine de liaison au 
glucane est sensiblement plus long que celui decrit precedemment pour les 
dextranes saccharases connues ; ainsi, une autre caracteristique des enzymes 
selon I'invention est la taille de ce domaine qui est superieur a 500 amino-acides.. 

La comparaison et I'analyse de la sequence de DSR-D avec les 
sequences des glycosyltransferases ou des dextrane-saccharases deja cfecrites 
(1), ainsi que les moyens utilises a cette fin sont indiques dans Texemple 2 P filetaille 
ci-apres. II y apparait clairement que si I'existence de deux domaines catalytiques 
differencie substantiellement DSR-D des autres enzymes, en revanche les 
sequences desdits domaines sont substantiellement conservees. En particulier, 
les acides amines necessaires a Tactivite catalytique sont conserves dans le 
deuxieme domaine catalytique, a savoir la triade Asp/GIu/Asp situee aux positions 
respectives 2210/2248/2322, de la sequence ID No. .2, representee dans la 
figure 8. 

Ainsi, , I'invention porte egalement sur tout polypeptide isole 
ayant une actiyite catalytique de glycosylstransferase apte a former des 
dextranes ou des oligosaccharides ayant .des ramifications a(1.->2) tel 
qu'obtenu par modification, substitution, insertion ou deletion de sequences 
d'amino-acides mais comportant des sequences presentant au moins 80 % 
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et de preference au moins 90 % de similarite avec les sequences suivantes 
de la sequence ID No. 2 : 

423-439 2120-2138 
478-501 2161-2184 
519-539 2202-2214 
560 - 571 2243 - 2250 

631 -645 2315-2322 
1014- 1021 2689-2696 

De facon preferee, enfin, un polypeptide a activite catalytique 
selon I'invention contient les acides amines suivants : 
W en positions 425 et 2122, 
E en positions 430, 565 et 2127, 2248 
D en positions 487, 489, 527, 638, 2170, 2172, 2210 et 
2322, 

H en position 637 et 2321 

Q en position 1019 et 2694. 
Les polypeptides a activite de glycosyltransferases aptes a 
former des liaisons osidiques a(1->2) peuvent se presenter sous forme 
isolee, Ou au contraire integres dans une proteine plus large, comme par 
exemple une proteine de fusion. II peut etre en effet avantageux d'inclure 
des sequences presentant une autre fonction, comme par exemple une 
sequence etiquette specifique d'un ligand permettant d'en faciliter la 
purification. Ces sequences etiquettes peuvent etre du type GST 
(glutathion-S-Transferase), Inteine - CBD (Chitine-Binding Domaine), 
(commercialise par New England Biolabs, http://ww.neb.com), MBD 
(Maltose Binding Domain), polypeptides contenant des residus histidine 
contigus permettant de faciliter la purification du polypeptide avec lequel il 
est fusionne. L'homme du metier peut concevoir toute autre proteine de 
fusion permettant d'associer la fonction de la -DSFMD de invention avec" ' 
une autre fonction, comme par exemple, et sans etre limitatif, une 
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sequence augmentant la stabilite de I'enzyme produite par expression dans 
un note recombinant ou une sequence apte a augmenter la specificite ou 
I'efficacite d'action de cette enzyme, ou une sequence visant a associer 
une autre activite enzymatique connexe. 

De telles proteines de fusion font egalement partie de 
I'invention des lors qu'elles contiennent le domaine CD 2 et le site de liaison 
au glucane. De la meme facon, les fragments de la sequence ID No. 2, 
comprenant au moins la sequence ID No. 1 et le domaine de liaison au 
glucane, seuls ou integres dans une sequence polypeptidique plus large 
font partie de .I'invention, a partir du moment ou I'activite enzymatique de 
dextrane-saccharase est conservee. . , .. . 

Les variants des sequences polypeptidiques definies ci- 
dessus font egalement partie de I'invention. Outre les polypeptides 
obtenus par substitution conservative des acides amines telle que definie 
plus haut, les variants incluent des polypeptides dont I'activite enzymatique 
est amelioree par exemple par mutagenese dirigee ou aleatoire, par 
evolution moleculaire, ou par duplication du domaine catalytique CD 2 . <V 

La structure particuliere de cette enzyme identifiee dans^la 
presente invention resulte d'un processus comprenant : 

a) ('identification et I'isolement de la dextrane-saccharase de L 
mesenteroides catalysant la production des GOS d'interet portant les 
ramifications ct(1-*2) ; - 

b) le sequencage de fragments de I'enzyme ; . 

c) la synthese d'amorces d'amplification aptes a amplifier le 
gene correspondant de la souche productrice ou des fragments de ceux-ci ; 

d) le sequencage des fragments amplifies ; -. ■ - 

.. , e ) le . clo . na ge dans des vecteurs specifiques etleur expression 

dans des hotes appropries.. ; , - , : • 

. . . Les modalites du procede mis en ceuvre sont detaillees dans 
la partie experimentale ci-apres. . La..premiere. etape. consiste en une 
separation des proteines par-electrophorese en gel de polyacrylamide, et 
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identification des bandes presentant I'activite de dextrane saccharase par 
une reaction enzymatique in situ en presence de substrat et d'accepteur. 
La nature des GOS synthetases est ensuite identifiee sur chaque bande par 
analyse HPLC selon les methodes decrites dans (1). Le temps de retention 
des oligosides en HPLC depend de la nature et de I'organisation de leurs 
liaisons osidiques. li est possible en particulier de distinguer ceux 
constitues de residus lies en a(1->6), en a(1->6) avec une ramification 
a(1-»2) a I'extremite non reductrice de la molecule, et ceux recherches 
composes d'une chaTne lineaire cc(1->6) avec des ramifications a(1-*2). 

Les inventeurs ont done isole et identifie la dextrane- 
saccharase de L mesenteroides NRRL B-1299 productrice des GOS 
d'interet. 

Un procede d'ingenierie reverse mis en oeuvre dans les 
etapes b) a e) ci-dessus a permis ensuite de fournir la sequence 
nucleotidique codant I'enzyme et permettant de la produire en quantite 
industrielle et le cas echeant de la modifier, d'en ameliorer ses 
performances par les techniques a la disposition de I'homme du metier. A 
titre d'exemple, on peut citer la mutagenese dirigee ou aleatoire, ou 
revolution moleculaire (DNA shuffling) (3). 

Un autre aspect de I'invention porte sur une molecule d'acide 
nucleique isolee codant une enzyme a activite glycosyltransferase apte a 
former des dextranes ou des oligosides presentant des ramifications 
a(1-»2) et comprenant au moins une sequence codant un domaine de 
liaison au glucane, et au moins une sequence nucleotidique codant un 
domaine catalytique situe en 3' de la precedente, ladite sequence codant 
un domaine catalytique ayant au moins 50 % et de preference au moins 
70 % de similarite avec la sequence ID No. 3 representee dans la figure 9. 

Par similarite, on entend le fait que, pour un meme cadre de 
lecture, un triplet donne est traduit par le meme acide amine. Ce terme 
inclut done les modifications de bases resultant de la degenerescence du 
code genetique. 
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Le pourcentage de similarite est determine en comparant une 
sequence donnee avec la sequence de reference. Lorsque cel!es-ci sont de 
longueurs differentes, le pourcentage de similarite est base sur le 
pourcentage de nucleotides de la sequence la plus courte similaires a ceux 
de la sequence la plus longue. 

Le degre de similarite peut etre • determine 
conventionnellement par utilisation de logiciels tels le ClustalW (Thompson 
et al., Nucleic Acids Research 22 (1994), 4673-4680) distribues par Julie 
Thompson ( Thompson@EMBL-Heidelberq.DE) et Toby Gibson 
(Gibson@EMBL-Heidelberq.DE) du Laboratoire Europeen de Biologie 
Moleculaire, Meyerhosfstrasse 1 D 69117. Heidelberg, Germany. 
ClustalW peut aussi etre charge a partir de plusieurs sites web incluant 
IGBMC (Institut de Genetique et de Biologie Moleculaire et Cellulaire, 
BP. 163, 67404 lllkirch cedex France; ftp^/ftp-iqbmc. u-strabq.fr/pub/) : et 
EBI ( ftp://ftp.ebi.ac.uk/pub/software/ ) et tous les sites renvoyant a I'lnstitut 
de Bioinformatique, Wellcome Trust Genome Campus, Hinxton, Cambridge 
CB10 1SD, UK). . . ■ . ^ 

Les acides nucleiques isoles selon Tinvention petiyent 
comprendre notamment d f autres sequences destinees * a ameliorer 
('expression et/ou I'activite de I'enzyme produite. 

II peut s'agir a titre d'exempie : 

- des sequences codant une sequence signal pour . leur 
secretion ; . . - 

- une duplication de la sequence codant le domaine 
catalytique CD 2 . 

De fagon preferee, un acide nucleique isole selon Tinvention 
comprend :^ . . . . - . 

a) deux sequences codant des domaines catalytiques ayant 
au rnoins 50 %, et de preference au moins 80 % de* similarite avec la 
sequence ID n° 3 ; . . . , 
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b) une sequence codant le domaine de liaison au glucane, 
cette derniere etant situee de preference entre ies deux sequences en a). 

Un acide nucleique selon I'invention pourra comprendre en 

outre : 

- un promoteur, apte a son expression dans une cellule note 

choisie, 

- une sequence codant un peptide signal, et/ou 

- une ou des sequences variables, 

cette ou ces sequence(s) etant toutes situees en partie 5' des 
sequences codant le ou Ies domaine(s) catalytique(s). 

Un exemple particulier d'un acide nucleique isole selon 
I'invention comprend plus particulierement : 

a) la sequence ID No. 4 representee dans la figure 10, 

b) une sequence presentant au moins 80 % de similarite avec 
la sequence ID n° 4, ou 

c) le brin complementaire de la sequence a) ou b), ou 

d) une sequence hybridant a), b) ou c). 

L'hybridation en d) est realisee en conditions standard, et de 
preference en conditions stringentes. Par hybridation en condition 
stringente, on entend le fait qu'il existe une identite de sequences d'au 
moins 80 % de la sequence que I'on cherche a hybrider et de preference 
une identite d'au moins 90 % de la sequence que I'on cherche a hybrider, 
dans des conditions decrites par exemple dans Sambrook et al. (3 6me 
edition, 2001, Coll. Spring Harbour, Laboratory Press, Coll. Spring 
Harbour, NY). 

L'invention porte egalement sur un gene codant une dextrane- 
saccharase apte a former au moins 15 % de ramifications a(1->2). Outre la 
sequence codante, le gene comprend Ies sequences permettant I'initiation 
de la transcription ainsi que Ies sequences permettant I'attachement de 
I'ARN messager au ribosome (RBS). La sequence ID No. 5 representee 
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dans . la figure 1 1 represents une structure du gene tel qu'isole de L 
mesenteroides NRRL B-1299. 

.Les nucleotides en amont de I'ATG d'initiation de la traduction 
sont numerates 1 a 232. 

On peut identifier I'existence d'une sequence RBS entre les 
nucleotides 218 et 223, ainsi que les sequences consensus - 35 et - 10 
situees entre les nucleotides 82 et 86 (TTGAA), d'une part et 100 et 105 
(ATAAT), d'autre part. 

Toute sequence d'acide nucleique hybridable avec I'ADN de 
la sequence ID No. 4 ou son brin cpmplementaire est susceptible de coder 
une enzyme ayant les proprietes- et caracteristiques de I'enzyme selon 
('invention. Ceci s'applique tant aux sequences naturelles existant dans 
d'autres micro-organismes que L mesenteroides NRRL-1299 et isolees de 
banques genomiques de micro-prganismes, que celles preparees par g^nie 
genetique ou par synthese chimique. . 

En particulier, les sequences en amont de I'ATG d'initiation.de 
la traduction et necessaires a I'expression de la proteine peuvent etre 
avantageusement substituees par des sequences d'initiation de>la 
transcription et/ou de fixation au ribosome adaptes au systeme 
d'expression choisi pour la sequence codante. 

Une sequence d'acides nucleiques susceptible de s'hybrider 
en condition stringente avec I'acide nucleique isole selon . I'invention 
comprend egalement des fragments, des derives, ou des variants alleliques 
de la sequence d'acides nucleiques selon I'invention qui code une proteine 
ayant I'activite enzymatique decrite ci-avant. Ainsi, les fragments' sont 
deflnis comme des. . fragments de molecules, d'acides nucleiques 
suffisamment longs pour coder une proteine. ayant conserve son activite 
enzymatique. Celle-ci inclut aussi .bien des fragments depourvus de la 
sequence codant le peptide signal responsable de la secretion de la 
proteine. 
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Le terme "derive" signifie sequence, differente de !a sequence 
originelle, a une ou piusieurs positions, mais presentant un haut degre de 
similarite avec ces sequences. Dans ce contexte, similarite signifie une 
identite d'au moins 80 % des nucleotides, et de preference d'au moins 
90 % avec la sequence originelle. Les modifications dans ce cas portent 
sur des deletions, substitutions, insertions ou recombinaisons, a partir du 
moment ou I'enzyme codee par ces sequences homologues presentent 
I'activite enzymatique des polypeptides selon 1'invention. 

Les sequences d'acides nucleiques selon I'invention telles que 
decrites ci-dessus et qualifiees de derives de ces molecules telles que 
definies ci-avant, sont generalement des variants exer?ant la meme 
fonction biologique. Ces variations peuvent etre des variations natureiles, 
notamment celles observables d'une espece a 1'autre et resultant d'une 
variability inter espece ou au contraire etre introduces par le moyen d'une 
mutagenese dirigee, aleatoire ou par DNA Shuffling (evolution moleculaire). 

De la meme facpon, font partie de Tinvention les acides 
nucleiques isoles codant une glycosyltransferase apte a catalyser la 
synthese de dextrane ou d'oligosaccharide portant au moins 20 % et de 
preference au moins 30 % de ramifications de type a(1->2) et obtenus par 
evolution moleculaire (DNA shuffling) et comprenant : 

- une etape de modification aleatoire d'une des sequences 
decrites precedemment et, en particulier, des sequences ID No. 3 et 4 et 
d'etablissement de variants ; 

- une etape d'expression de ces sequences modifiees dans 
une cellule hote appropriee, un hote abritant un variant ; 

- une etape de criblage des hotes exprimant une enzyme apte 
a former plus de 20 % et de preference plus de 30 % de liaisons a(1 -> 2) 
sur un substrat approprie et une etape d'isolement du ou des genes 
ameiiores. 

Un acide nucleique isole selon Invention pourra egalement 

comprendre : 
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a) une sequence ayant au moins 80 % de similarity avec la 
sequence codant une dextrane-saccharase exprimee par le plasmide pCR- 
T7-dsr D dans E. coli depose a la CNCM le 15 mars 2001 sous le numero I- 
2649 (E. coli TM. 1 09 [pCR-T7-dSAO]), ou 

b) une sequence complementaire de la sequence en a). 
L'invention porte egalement sur les fragments d'acides 

nucleiques tels que definis ci-dessus, hybridables avec la sequen- 
ce ID No. 4, et utilisables comme sondes d'hybridation pour la detection de 
sequences codant des enzymes selon l'invention. Ces fragments peuvent 
etre prepares par toutes les techniques connues de rhomnie du metier. 

Outre les sondes d'hybridation, des amorces d'amplification 
font egalement partie de l'invention. Lesdites amorces sbnt des fragments 
hybridables avec la SEQ ID No. 4 ou avec son brin complementaire eif" 
permettent ('amplification de sequences specifiques codant des dextrane^ 
saccharases presentes dans un organisme procaryote ou eucaryote; 
animal ou vegetal. •. 

• ^utilisation de telles amorces d'amplification permet la mise* 
en oeuvre d'un procede d'identification de I'existence eventuelle d'un gene^ 
codant une enzyme apte a catalyser la synthese de GOS avec des 1 * 
ramifications a(1->2) dans un tel organisme, ledit procede- faisant 
egalement partie de l'invention. 

L'invention porte egalement sur des vecteurs d'expression 
comprenant un acide nucleique tel que decrit ci-avant, sous le controle de 
sequence permettant son expression et de preference son excretion dans 
des cellules procaryotes ou eucaryotes. Par cellules procaryotes, on 
choisira de preference des bacteries choisies dans un groiipe comprenant 
E. coli, les Lactococcus, les Bacillus, les Leuconosfoc. Par cellules 
eucaryotes, on choisira de preference les eucaryotes ; choisis dans un 
groupe contenant les levures, les champignons ou les vegetaux: • 

.. . |- e vecteur comprend un promoteur adapte a I'expression de 
I'acide nucleique isole selon 1'invention dans le systeme d'expression choisi. 
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A titre d'exempie, le promoteur du bacteriophage T7 pourrait etre 
avantageusement choisi pour tine expression dans E. Coli. 

L'invention porte egalement sur les cellules hotes, procaryotes 
ou eucaryotes, transformees par un acide nucleique selon Tinvention de 
preference compris dans un vecteur depression portant un promoteur, 
adapte a une expression dans les cellules hotes choisies. Les cellules 
transformees sont choisies dans le groupe des bacteries a Gram- telle E. 
coli) ou dans le groupe des bacteries a Gram* telles Lactococcus, Bacillus, 
Leuconostoc ou parmi les eucaryotes dans un groupe comprenant les 
levures ou les champignons, ou les vegetaux, 

Un exemple particulier d'une cellule transformee selon 
Tinvention est la souche E. coli porteuse d'un plasmide appele PCR- 
T7dsrD et porteur de la sequence ID No. 4 sous le controle du promoteur 
du bacteriophage T7 et deposee a la CNCM le 15 mars 2001 sous le 
numero I-2649. 

La presente invention, par ailleurs, porte sur un procede de 
production d'une glycosyltransferase apte a former des dextranes ou des 
oligosides presentant au moins 15 % et de preference au moins 20 % de 
ramifications de type a(1-»2) osidiques et comprenant : 

a) insertion d'un acide nucleique ou d*un vecteur tel que 
decrit precedemment dans une cellule hote apte a I'exprimer et de 
preference a secreter la glycosyltransferase ; 

b) la caracterisation de I'activite enzymatique recherchee par 
toutes les methodes accessibles a Thomme du metier ; 

c) la purification de I'enzyme a partir d'un extrait cellulaire. 
Par methode de caracterisation de I'activite enzymatique 

connue de I'homme du metier, on comprendra les methodes decrites dans 
la litterature par exemple dans la reference (2) ainsi que de nouvelles 
methodes susceptibles d'etre mises au point permettant d'identifier et de 
discriminer les glucooligosaccharides presentant le taux de ramification 
recherche. 



1er depot 



17 

II s'agit en fait de .tout procede de criblage permettant 
d'identifier la presence de ramifications a(1-»2) dans un GOS. - 
A titre d'exemple, seront utilisees : 

- I'HPLC pour lequel la migration des GOS varie en fonction 
de la nature et le positionnement des ramifications, notamment ceux ayant 
le lien a(1->2) a I'extremite reductrice et ceux ayant ce lien sur I'avant- 
dernier glucose, et/ou •• • 

- la Resonnance magnetique nucleaire (RMN), 

- I'existence d'une reaction positive avec des anticorps 
monoclonaux specifiques des liaisons oc(1->2) sur I'extremite reductrice 
et/ou d'anticorps monoclonaux specifiques des liaisons ct(1^2) sur I'avant- 
dernier glucose du GOS. 

L'invention porte egalement sur un procede d'obtention d'une 
glycosyltransferase apte a presenter des oligosides ou des dextrafies 
presentant un taux de ramification a(1-*2) superieur a ' 15% et de 
preference superieur a 30 % de la totalite des liaisons osidiques' et 
comprenant une etape de modification de la sequence ID No. 4 ¥ f>ar 
addition, deletion, mutation a partir du moment ou : ' 

- le cadre de lecture n'est pas modifie, et * 

' - les acides amines suivants sont conserves apres traduction : 
W en positions 425 ou 2122, code par le triplet TGG en 
positions 1273 et 6364, ' - 

E en positions 430, 565, 2127 et 2248 codes par les 
triplets GAA en positions 1288, 1693, 6379 et 6742 respectivement, 

- D en positions 487, 489, 527, 638, 2170 et 22 10 codes par 

les triplets GAT en -positions 1459, 1465, 1579, 1912, 6508 et 6628 
respectivement, *•■ '• " : -•*-'• • •• • v. - 

•••• " • Den positions 2172 et 2322 codes par les triplets GAT en 

positions 6514 et 6964, ". : 

H en position ' 637 et 2321, codes respectivement par les 
triplets CAT en position 1909 et CAC en position 6961 , 



ler depot 



18 

Q en positions 1019 et 2694 codes respectivement par les 
triplets CAA (3055) et CAG (8080). 

Un procede de production d'une glycosyltransferase selon 
['invention ayant les memes caracteristiques que ci-avant peut egalement 
comprendre : 

- une etape de modification aleatoire de la sequence ID n° 4 
et d'etablissement d'une banque de variants, 

- une etape d'expression de ces sequences modifiees dans 
une cellule hote appropriee, un hote abritant un variant, 

- une etape de criblage des hotes exprimant une enzyme apte 
a former plus de 15 % et de preference plus de 30 % de liaison a(1 -> 2) 
sur un substrat approprie, 

- une etape d'isolement du ou des genes ameliores. 

Dans un autre mode de realisation de ('invention, le procede 
consiste a modifier la sequence ID No. 3 par duplication de tout ou partie 
du domaine catalytique CD 2 . 

On pourra comprendre que les procedes ci-dessus visent non 
seulement a I'obtention d'une glycosyltransferase apte a former des 
oligosides presentant un taux de ramification a(1 2) constant et 
reproductible, superieur a 15 % des ramifications totales mais egalement a 
ameliorer le taux de ramification a(1 ~> 2) dans I'objectif de modifier les 
proprietes des oligosides obtenus dans le sens d'une amelioration de leurs 
proprietes dietetiques ou de leur capacite a maintenir ou retablir la flore 
bacterienne associee a certains organes du corps humain ou animal. 

La presente invention porte enfin sur les glycosyltransferases 
susceptibles d'etre obtenues par un procede cite ci-avant et apte a former 
au moins 15 % et de preference au moins 30 % de ramifications de type 
a(1 -> 2) osidiques dans des glucooligosaccharides. 

L'invention porte enfin sur I'utilisation des glycosyltransferases 
selon Invention, ainsi que celles susceptibles d'etre obtenues par les 
procedes ci-dessus, dans la fabrication d'une composition a effet 
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prebiotique ou dans la fabrication d'une composition dermatologique, 
cosmetique ou pharmaceutique. 

•A titred'exemples non limitatifs, on peut citer I'amelioration du 
transit intestinal chez les animaux et chez I'homme, I'amelioration de 
('assimilation du calcium et/ou du magnesium et des mineraux en general, 
la prevention du cancer du colon, la prevention ou le traitement des 
affections de la peau telles I'acne, les pellicules, les odeurs corporelles. 

L'avantage des polypeptides et des acides nucleiques codant 
ces polypeptides selon I'invention se situe non seulement au niveau de 
I'amelioration en terme de qualite, de rendement, de reproductibilite, et de 
prix de revient des glycosyltransferases aptes a former des 
oligosaccharides avec des ramifications de type a(1 -» 2) bsidiques mais 
egalement dans la perspective de produire de nouvelles enzymes dont la 
fonctionnalite est amelioree. - - 

. - ,Les figures, .exemples et description detailles ci-apres 
permettent, sans la limiter, d'illustrer les caracteristiques et les ' l 
fonctionnalites particulieres des polypeptides a activite enzymatique et des *-2 
sequences codant ceux-ci. Elles permettent en particulier d'illustrer de <^ 
fa?on plus precise la specificite du domaine catalytique present dans la 
partie carboxylique de I'enzyme selon I'invention et son evolution potentielle 
pour I'obtention d'enzymes ameliorees. • ! - • 

LEGENDE DES FIGURES : 

Rgjurel: structure des glycosyltransferases : la figure 1a) 
represente ,la structure des glycosyltransferases et des dextrane- 
saccharases decrites dans la litterature (1). -La figure 1b) represente la 
structure de la glycosyltransferase- selon I'invention. A : peptide signal ; B : 
region variable, C : domaine catalytique, D : domaine de liaison au glucane 
(GBD). . . 

, , . £l9L!J£e2: schema recapitulatif de- la methode de clonage de la 

sequence nucleotidique codant une glycosyltransferase selon I'invention a 
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I'aide d'une bibliotheque genomique en utilisant une sonde PCR decrite 
dans le tableau I et une sonde Hindlll/EcoRV respectivement. 

Figure 3 •' comparaison des sequences signal de differentes 
glycosyltransferases de L. mesenteroides. Les acides amines conserves 
sont en gras. DSR-B : L mesenteroides B-1299 (4) ; DSR-S : L 
mesenteroides B-512F (5) ; ASR: L mesenteroides B-1355 (6). 

Figure 4 •' alignement des 1 1 sequences repetees de I'enzyme 
DSR-D et observees dans La zone variable. 

Figure 5 : alignement des sequences conservees du domaine 

catalytique. 

- Bloc A : acides amines essentiels de la partie N-terminale du 
domaine catalytique ; 

- Bloc B : acides amines de la partie du domaine catalytique 
de liaison au saccharose ; 

- Blocs C, D, E : blocs contenant les trois residus d'acides 
amines impliques dans la triade catalytique (6) ; 

- Bloc F : sequence contenant la glutamine 937 de GTF-I 
etudiee par Monchois et al. (7). 

Les acides amines entierement conserves sont indiques en 
gras. ** : substitutions conservatives ; * : substitutions semi-conservatives ; 
— : GAP. Les numerations sont celles de la sequence ID No. 2. 

Fi 3 ure § : caracterisation HPLC des produits synthases par 
I'enzyme recombinante DSR-D. 

6A: analyse en HPLC des glucooligosaccharides obtenus 
avec les dextrane-saccharases de L mesenteroides NRLL B-1299. 

6B : analyse HPLC des glucooligosaccharides obtenus par la 
DSR-D recombinante. ^identification des differents pics suivants : 

1 : fructose, 

2 : maltose, 

3 : sucrose, 

4 : panose, 
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. 5: R4, . • ... -, 

.6 : OD4, , ....... 

, 7 : R5, 

8 : OD5, ■ ... 
A, B, C : pics non identifies. 

6C. : DSR-D recombinante deletee du domaine catalytique de 
la partie carboxylique de I'enzyme (A DSR-D). . ■ * 

Figure 7 : sequence peptidique de CD 2 . 

Figure 8 : sequence peptidique de DSR-D. 

Figure 9 : sequence nucleotidique codant CD 2 . 

Figure 1 0 : sequence nucleotidique codant DSR-D; 

Figure 1 1 : sequence nucleotidique d'un gene codant DSR-D}| 

MATERIELS ET METHODES : 
- 1) Souches bacteriennes. plasmides . et conditions de 
croissance : . .. ... • • ■ ' . . , 

Toutes les souches sont conservees a -80°C dans des tubes contenant- 
15% de glycerol (v/v). ... • f 

Leuconostoc mesenteroides B-1299 (NRRL, Peoria, USA) est cultivee a 
27°C, sous agitation (200 RPM) sur milieu standard (saccharose 40 g.r 1 , 
phosphate potassium 20 g.r 1 , extrait de levure 20 g.l" 1 , MgS0 4 -7H 2 0 0.2 
g.r 1 , MnS0 4 -H 2 0 O.OIg.r 1 , NaCI O.OIg.l" 1 , CaCI 2 0.02 g.r 1 , FeS0 4 -7H 2 0 
0.01 g.r 1 ), le pH etant ajuste a 6,9. 

Escherichia coli DH5a et JM109 ont ete cultivees sur milieu LB (Luria- 
Bertani).. •• - . . •. • ■• ■ J ' » 

La selection des clones recombinants de pUC18 ou pGEM-T Easy est 
effectuee sur boites LB T agar supplement avec 100 jjg.ml" 1 d'ampicilline, 
0.5 mM d'isopropyl-p-D-thiogalactopyranoside (IPTG) et 40 pg.mC 1 de 5- 
bromo-4-chloro-3-indolyl-p-D-galactopyranoside (X-gal). Des cellules d' E. 
coli TOP 10 ont ete utilisee pour le systeme de clonage de produit PCR 
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TOPO Cloning (Invitrogen), et cultivees sur milieu LB supplements de 
kanamycine a la concentration de 50 ug.ml 1 . 

En ce qui concerne ('expression de dsrD, le kit de clonage ECHO Cloning 
System (Invitrogen) permet le clonage d'un produit PCR dans un vecteur 
donneur (pUNI/V5-His-TOPO). precedent une etape de recombinaison 
avec un vecteur accepteur adapte (pCR-T7-E). Ce systeme requiert des 
cellules E. coli PYR1, TOP 10 et BL21(DE3)pLysS cultivees sur milieu LB 
supplements de 50 ug.ml" 1 de kanamycine, ainsi que de 34ug.mr 1 de 
chloramphenicol pour la souche BL21(DE3)pLysS. 

Les plasmides pUC18 digeres et dephosphoryles proviennent 
de Pharmacia (Amersham Pharmacia Biotech) et ont ete utilises pour la 
constitution de banque d'ADN genomique de L. mesenteroides B-1299. Le 
clonage de produit PCR a, quant a lui, necessity I'emploi de plasmide 
pGEM-T Easy (Promega), et pour les fragments de plus de 2 kbp de 
plasmide TOPO-XL (Invitrogen) 

2) Electrophorese sur ge l, localisation et caracterisatinn H» 

I' enzvme : 

Apres une culture de L. mesenteroides B-1299 de 7h, le 
milieu est centrifuge (7000 RPM, 4°C, 30 min) et les cellules, ou 90% de 
I'activite enzymatique se retrouve, sont concentrees 10 fois dans une 
solution de tampon acetate (20 mM, P H 5,4), chauffees 5 minutes a 95X 
en presence de solution de denaturation (Tris HCI 62.5 mM, SDS 4%, uree 
6M, bleu de bromophenol 0.01% et P-mercaptoethanol 200 mM). 300 ul du 
melange est depose sur gel de polyacrylamide a 7%. Apres migration les 
proteines totales sont revelees par coloration au noir amido, alors que 
I'activite dextrane-saccharase est detectee par coloration du polymere au 
reactif de Schiff apres synthese de dextrane in. situ. Les bandes 
correspondant a des dextrane-saccharases actives sont excisees et 
mcubees separement dans 2 ml de solution d'acetate de sodium 20 mM pH 
5.4 contenant 100g.r 1 de saccharose et 50 gj" de maltose Apres 
consommation totale du saccharose, la reaction est arretee par chauffage a 



1er depot 



23 

95°C pendant 5 minutes, et le milieu reactionnel est centrifuge 5 minutes a 
15000g afin d'eliminer le dextrane insoluble. Les echantillons sont analyses 
par chromatographie en phase inverse ( colonne C18, Ultrasep 100, 6 (jm, 
5x300mm, Bishoff Chromatography) en utilisant de I'eau ultrapure comme 
eluant, a un debit constant de -0.5ml.min' 1 . Les oligosaccharides sont 
separes pendant 30 minutes a temperature ambiante, et detectes par 
. refractometrie; Le sequengage peptidique a ete realisee sur les bandes 
proteiques selectionnees par le Laboratoire de Microsequengage, Institut 
Pasteur, Paris. 

■ • ■ 3) Techniques de biologie moleculaire utilisee : 

La purification du plasmide d' E. coli et la purification du DNA 
genomique de L mesenteroides ont ete realisees en utilisation 
respectivement QiaPrep Spin Plasmid kit et le Cell Culture DNA maxi kit 
(QiaGen). Les procedes d'amplification et de clonage ont ete realist; en 
utilisant les techniques standards (Sambrook et al. 2001, voir supra)^Les 
enzymes de restriction et de modification proviennent des socjetes 
commerciales New England Biolabs ou Gibco BRL et utilisees selon'' les 
protocoles des fabricants. 

La PCR est realisee a vec des amorces choisies sur la base 
de la sequence proteique obtenue sur une bande de gel d'electrophorese 
isolee (voir plus haut, electrophorese sur gel et localisation de I'enzyme). 
Deux peptides ont ete selectionnes : 
- 29-FYFESGK, et 
v . . - 24-FESQNNNP - • ■ 
et utilises pour-synthetiser des oligonucleotides degeneres et indiques dans 
le tableau I ci-dessous. - , - 

• . Dans ce tableau ou les numerotations sont celles de' la 
figure 10, il apparait que la presence d'un residu serine dans les deux 
peptides necessite la synthese de deux amorces pour chaque peptide dans 
la mesure ou la serine peut etre codee par six codons differehts. ECHO-dir 
et ECHO-inv sont les amorces utilisees ayant permis I'amplification de dsrD 
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par PCR pour son clonage dans le systeme d'expression Echo Cloning 
(Invitrogen). 





TABLEAU I 




Designation 


Description 


Sequence 5'-3' 


29-dir1 


FYFESGK 


TT(C/T)TA(C/T)TT(C/T)GA(A/G) 7G4GG(C/G)AA(A/G) 


29-dir2 




TT(C/T)TA(CniTT(C/T)GA(A/G)/\GCGG(C/G)AA(A/G) 


24-inv1 


FESQNNNP 


(T/G)GG(G/A)TT(G/A)TT(G/A)TTTTG TGA(T /C)TCAAA 


24-inv2 




(T/G)GG(G/A)TT(G/A)TT(G/A) i I I I G GC 7(T/C)TC AAA 


IPCR-rev 


sequence nt 
5769-5798 


CCCTTI AC AAG CTGATTTTG CTTATCTG C G 


IPCR-dir 


sequence nt 
8311-8342 


GG GTC AAATC CTTACTATACATTGTCACAC G G 


ECHO-dir 


sequence nt -6 - 
39 


AGTTGTATGAGAGACATGAGGGTAATTTGTGACCGTAAAAAATTG 


ECHO-inv 


sequence nt 
8457-8504 


ATTTGAGGTAATGTTGATTTATCACCATCAAGCTTGAAATATTGACC 



PCR : 

La PCR est realisee en utilisant un thermocycleur Perkin- 
Elmer, modele 2400, et en utilisant 50 nanogrammes de I'ADN genomique. 
Les quantites d'amorces utilisees sont de 10 uM de 29-Dir1 et de 24-lnv1. 
Au melange reactionnel, sont ajoutes 250 pM de chaque desoxynucleotide 
triphosphate, et la Taq Polymerase. 

Apres une amplification de 25 cycles a 94° C pendant 
30 secondes puis a 50° C pendant 30 secondes, puis a 72° C pendant 
5 minutes, un fragment de 666 paires de base a ete obtenu. 
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Hybridation southern et bibliotheque genomique de L. 
mesenteroides B-1299 : 

L'ADN chromosomique de L. mesenteroides B-1299 a ete 
digere avec differences enzymes de restriction, puis separe sur gel 
d'agarose. Des bibliotheques genomiques de la bacterie ont ete transferees 
sur des membranes de nylon hybond N+ (Amersham PharmaciaBiotech). 
(.'hybridation a. ete realisee en utilisant le fragment de 666 paires de bases 
a la desoxy-adenosine-triphosphate marque au 32 P. La reaction de 
marquage a ete realisee en utilisant le kit de marquage "Mega Prime DNA 
Labelling System Dit" (Amersham PharmaciaBiotech), suivie par la 
purification de la sonde sur des colonnes MicroSpin S-200HR. La pre- 
hybridation et I'hybridation ont ete realisees en conditions fortement 
stringentes (65° C pendant la nuit, selon les methodes habituelles) 
(Maniatis et al., 2001). . . & 

PCR inverse : 

. L'ADN genomique de L mesenteroides B-1299 est digere par 
EcoRV dans les conditions recommandees par le fournisseur 

Apres re-circularisation, les produits de digestion sont utilises 
comme matrice dans une PCR inverse (Extrapol II DNA polymerase 
(Eurobio) 25 cycles, 94° C, 30 secondes ; 51° C, 30 secondes ; 72° C, 
3 minutes). Les deux amorces ont ete choisies en fonction de la sequence 
de I'insert de pSB2 comme ceci est indique dans la figure 2. ■ ■ ■ 

La figure 2 resume les modalites d'obtention des differents 
plasmides porteurs des fragments de dsrD par criblage de la bibliotheque 
genomique et utilisation des sondes decrites ci-dessus. 

Sequence d'ADN et analyse : 
. . . Apres le sequencage des peptides, des amorces degenerees 
dessinees en tenant compte de la frequence d'utilisation des codons dans 
les genes de dextrane-saccharases de L mesenteroides B-1299, ont ete 
synthetisees et ont permis ('amplification d'un fragment de 666 bp. Le 
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sequencage de ce fragment a revele de fortes homologies avec les genes 
de dextrane-saccharases deja connus, tout en etant totalement nouveau. 
L'utilisation de ce fragment comme sonde homologue dans des 
experiences de Southern, a permis de reperer des signaux positifs sur 
differentes pistes d'ADN genomique digere. Une premiere banque H/ndlll a 
ainsi ete criblee, et un plasmide recombinant, nomme pSB2, contenant un 
insert de 5,6 kbp, a ete purifie. L'analyse de la sequence de ce fragment 
Hin6\U a revele un cadre ouvert de lecture couvrant la totalite de I'insert. 
Ensuite, une banque EcoRV a ete criblee avec une sonde H/ndlll/EcoRV 
isolee a I'extremite N-term de I'insert H/ndlll de 5,6 kbp. Un plasmide 
recombinant pSB3, teste positivement par dot-blot, s'est avere contenir un 
insert de 3,8 kbp qui, apres sequencage, a ete montre contenir le codon 
d'initiation de la traduction et la region promotrice du nouveau gene de 
dextrane-saccharase nomme dsrD. 

Dans le but d'obtenir le codon de terminaison de dsrD, une PCR inverse a 
ete realisee sur de I'ADN genomique de L. mesenteroides B-1299 digere 
par EcoRV et religue sur lui-meme, en utilisant des amorces 
oligonucleotidiques divergentes dessinees a partir de la sequence de 
I'insert pSB2. Un fragment unique a la taille attendue de 1 kbp a ete 
amplifie puis clone dans un pGEM-T Easy,jx>ur obtenir le plasmide pSB4. 
Apres sequencage, la sequence amplifiee situee en aval du site H/ndlll 
comporte 221 bp et contient le codon de terminaison du cadre de lecture de 
dsrD, situe 30 bp en aval du site de restriction H/ndlll. 

Le sequencage des differents fragments portes par les trois 
plasmides a ete realise par la societe Genome Express, et ce sur les deux 
brins. Les analyses des sequences de nucleotides ont ete realisees en 
utilisant le "ORF Finder" ( http://www.ncbi.nlm.nih.QOv/aorf/gQrf html) , Blast 
(http://www.ncbi.nlm.ni h.gov/blast/blast cgi Altschul et al., 1997) ClustalW 
(http://www2.ebi.ac.uk /clustalw . Thompson et al, 1994), PRODOM 
(http://protein.toulous e.inra.fr/prodom.html . Corpet et al, 2000), PFAM 
(http://pfam.wustl.edu/ hmmsearch.shtml Bateman et al, 2000) et SAPS 
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( http://bioweb.pasteur.fr/seqanal/interfaces/saps.html . Brendel et al, 1992), 
I'ensemble de ces logiciels etant accessible par internet. 
Expression de la proteine : 

Le systeme de clonage ECHO (Invitrogen) a ete utilise : deux 
amorces telles que proposees dans le tableau I ci-dessus permettent 
('amplification en utilisant le systeme de Boehringer Mannheim "Expand 
Long Template" dans les conditions suivantes : 94° C pendant '3 minutes 
suivis de 25 cycles a 94° C pendant 30 secondes, 55° C pendant 
30 secondes, et 68° C pendant 7 minutes. Les prod uits PCR sont ensuite 
clones dans le vecteur pUNI/V5-His-TOPO, permettant I'obtentibn d'un 
vecteur donneur (pUNI-otefD) pour recombiner avec un vecteur accepteur 
(pCR-T7-E). et adapte a ('expression dans E. coli. Le plasmide final est 
designe pCR-T7-dsrD: • 

Cette construction place le gene dsrD sous le controle du 
promoteur du bacteriophage T7 et permet ('expression inductible du |ene 
dsrD, . , • . . •• . , ' .• • -..%:> 

Apres induction avec 1 mM d'IPTG, les cellules d'E. coii BL21 
transformees sont recoltees par centrifugation apres 4 heures^-de 
croissance, et re-suspendues a une densite optique finale de 80 a 60cf'nm 
dans du tampon acetate de, sodium 20 mM pH 5,4 et du Triton X100 a 1% 
(v/y). en presence de. 1 mM PMSF afin d'empecher la proteolyse dans les 
extraits cellulaires apres sonication. ....... . ... .: 

Tests enzvmatiques : • '• ' < 

Les reactions enzymatiques sont realisees dans les conditions 
standards a 30 degres dans du tampon acetate de sodium 20 mM pH 5.4, 
CaCI 2 0,05 9/r 1 / NaN 3 1 g/l" 1 .et saccharose 100 g/r 1 . L'activite de I'enzyme 
DSR-D est determinee: en mesurant la. liberation des siicres reducteurs, 
une unite etant definie. comme. la quantite d'enzyme qui catalyse la 
formation d'1 pmol de fructose par minute dans les conditions standards. 
Les oligosaccharides sont synthetises dans un milieu reactionnel contenant 
100 g/l de maltose, 200 g/l de saccharose et 0,5 unites/ml de DSR-D. : 
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Comme pour la synthase de dextrane, la reaction 
enzymatique a ete poursuivie pendant 24 heures en presence de 100 g/l de 
glucose. Le dextrane produit a ete precipite en presence d'ethanol 50 % 
(v/v) et lave deux fois dans I'ethanol a 50 % (v/v) avant lyophilisation. II est 
ensuite dissous a 10 mg/ml dans du D 2 0 et analyse par spectrometrie 
deRMrl du 13 C. 

Analyse par RMN : 
Les analyses par resonance magnetique nucleaire (RMN) du proton ont ete 
realisees sur un spectrometre Varian unit Plus equipe d'un systeme 
Ultrashim (frequence d'operation 499, 836 Mhz). Les echantillons ont ete 
dilues dans de I'eau deuteree (5mg dans 0.75 ml de solvant) et analyses a 
25°C. Les spectres de protons ont ensuite ete realises a une frequence de 
3300Hz pendant 90 pulses et 12480 points. Le temps d'acquisition est egal 
a 1,891 secondes et le nombre d'accumulations et de 32 scans. 
Les spectres du carbone 13 C sont enregistres a I'aide d'un spectrometre 
Bruker AC 300. Les echantillons sont dilues dans de I'eau deuteree 
(environ 10-15 mg dans 0,40 ml), les spectres sont realises a une 
frequence de 75 MHz a 70°C, et le temps d'acquisition est egal a 
0,54 secondes. 

Les deplacements chimiques sont donnes en ppm par rapport 
au signal methyle de I'acetone dans I'eau, qui est pris comme standard a 
X=31.5 ppm par rapport au signal methyle du 4,4 dimethyl-4-silapentane-1- 
sulfonate. 

Exemple 1 : Caracterisation et purification de I'enzyme 
DSR-D et obtention du dsrD 

Les enzymes produites par les cultures de L. mesenteroides 
et obtenues sur gel de polyacrylamide en SDS tel que decrit dans la partie 
Materiels et Methodes sont isolees par decoupe du gel. 

Les GOS produits par les enzymes ainsi isolees sont analyses 
par HPLC selon les methodes decrites dans (1). L'enzyme dont I'activite est ' 
recherchee est deduite de la nature des GOS produits. Apres proteolyse 
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trypsique et separation par HPLC des peptides produits, 2 peptides : 29- 
FYFESGK et 24- FESQNNNP sont sequences et utilises comme modele 
. pour la synthese d'amorces nucleotidiques degenerees. 

Les differentes etapes d'amplification et de clonage sont 
representees dans la figure 2. Le gene complet est insere dans le plasmide 
pCR-T7-E et exprime dans E. colL 

La production d'une enzyme fonctionnelle est attestee par la 
production des GOS dont ('analyse HPLC est representee dans la figure 
6b). 

On remarquera en particulier rimportance des pics 5 et 7 
representatifs des GOS a ramification a(1->2). 

Exemple 2 : caracterisation des sequences dsrD et de 

DSR-D 

2.1 Sequence nucleotidique : 

La sequence nucleotidique de I'enzyme est representee dans 
la sequence ID No. 4. Elle est composee d'un cadre de lecture de 
8508 nucleotides. . . 

La sequence nucleotidique de ('insert dans le plasmide pCR- 
T7-dsrD contient un site de liaison au ribosome (RBS), 9 bases en amont 
du codon d'initiation ATG et est composee d'un hexa-nucleotide GAGGAA. 

2.2 Analyse de la sequence d'amino-acides : 

La sequence de 8508 nucleotides de dsrD code une proteine 
de 2835 acides amines et est representee dans la sequence ID No. 2. Le 
point isolectrique de cette proteine est de 4,88 et son poids moleculaire 
theorique de 313,2 kDa. En depit des fortes similarites avec les dextrane- 
saccharases deja connues, dsrD est caracterisee par une structure 
originale. , 

L'alignement de la sequence .d'amino-acides avec I'ensemble 
des glycosyltransferases et des dextrane-saccharases connues confirme 
que la structure en domaine des glycosyltransferases et des dextrane- 
saccharases est conservee, a savoir : une sequence signal, une region 
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variable, un domains catalytique hautement conserve et un domaine de 
liaison au glucane. Cette structure est representee dans la figure 1a. 

Comme I'indique la figure 1b, un deuxieme domaine 
catalytique forme la partie carboxy-terminale de I'enzyme comme cela ete 
confirme par PRODOM et une analyse Blast. 

Avec un poids moleculaire de 313,2 kDa, DSR-D a environ 
2fois le poids moleculaire moyen des autres glycosyltransferases et 
dextrane-saccharases (1), ce qui est en accord avec la presence d'un 
deuxieme domaine catalytique a I'extremite C-terminale et egalement avec 
un domaine de liaison au glucane plus long. 

a) analyse de la sequence signal : 

La sequence signal et la sequence nucleotidique codant le 
peptide signal sont extremement conservees si on les compare aux autres 
dextrane-saccharases comme ceci est indique dans la figure 3. Le site de 
clivage est localise entre les acides amines 40 et 41. 

b) domaine variable : 

En aval du peptide signal, DSR-D a un domaine variable de 
207 acides amines. Lorsqu'on le compare aux autres domaines variables 
des glycosyltransferases, en utilisant un programme d'alignement de type 
SAPS, on met en evidence la presence d'un motif de 14 acides amines 
repete 1 1 fois comme ceci est indique dans la figure 4. 

Ce motif repete, riche en alanine, threonine et acide 
aspartique n'a jamais ete identifies precedemment. 

Le role et la signification de cette region n'ont jamais ete 
elucides. Differentes etudes ont demontre que sa deletion n'affecte pas 
Tactivite enzymatique (4). Le rdle du motif repete de 14 acides amines qui 
n'existe pas dans les autres glycosyltransferases reste neanmoins a 
determiner. 

c ) analyse des domaines catalo gues : 

Le premier domaine catalytique s'etend des acides amines 
248 a 1142 (CD1) de la sequence ID No 2, alors que le deuxieme est 
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localise entre les acides amines 1980 et 2836 (CD2). Ces deux domaines 
presenter* 45 % d'identite et 65 % de similarite entre eux. 

CD1 et CD2 contiennent les acides amines deja identifies 
dans les glycosyltransferases et les dextrane-saccharases comme etant 
essentiels a leur activite enzymatique, et comme ceci est indique dans la 
figure 5. . . . . 

- . , Les triades catalytiques de CD1 et CD2 determinees par 
analogie avec.l'a amylase (ref. 7) sont presentes aux positions suivantes : 
(Asp 527/Glu 565/Asp 638 pour CD1 et Asp 2210/Glu 2248/Asp 2322 pour 
CD2). - •• 

D'autres residus conserves ont ete identifies comme 
importants pour I'activite enzymatique : les residus Trp 425/Glu 430 pour 
CD1 et Trp 2122/Glu 2127 pour CD2, lesquels sont analogues a celles du 
domaine N-terminal de GFTI decrits par Monchois et al. (4) : Trp 344/Glu 
349. 

En revanche, certaines sequences situees dans la region 
conservee des glycosyltransferases et des dextrane-saccharases ne se 
retrouvent pas dans CD2 de DSR-D. Ainsi, comme indique dans ie tableau 
4 ci-dessus, les sequences FIHNDTI (2214-2220) et KGVQEKV (2323- 
2329) . divergent des autres sequences consensus des dextrane- 
saccharases deja etudiees qui sont respectivement' NVDADLL et 
SEVQTVI, . 

d) domaine de liaison au alucane : 
, . Lorsque I'on compare la sequence de DSR-D avec les 
sequences connues. il apparait que le domaine de liaison au glucane est 
sensiblement plus long. En effet, ce domaine a une longueur d'environ 
500 acides, amines, dans les glycosyltransferases et les dextrane- 
saccharases etudiees alors que dans DSR-D, il represente 836 acides 
amines. Plusieurs motifs repetes A et C ont pu etre identifies. En particulier, 
une. serie de repetition AC a. pu etre identifiee. - - -5 ■- 
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Exemple 3 : expression dsr-D dans E. coli 
Des cellules d'E. coli BL21 (DE3) pLysS pCR-T7-dsrD ont ete 
cultivees com me decrit ci-dessus. Apres gel d'electrophorese en 
polyacrylamide-(page-SDS) I'analyse des extraits proteiques revele 
effectivement la presence de plusieurs bandes ayant I'activite de dextrane 
saccharase, ladite activite etant mesuree comme ci-dessus. C'est cette 
lignee qui a ete deposee a la CNCM le 15 mars 2001 sous le numero I- 
2649. 

Identificati on et caracterisation de I'activite enzvmatique : 
En utilisant une molecule accepteur de glucose, les dextrane- 
saccharases produites par E. coli recombinant ont ete comparees avec 
celles produites par L. mesenteroides B-1299. 

L'analyse HPLC des produits de la reaction avec la DSR-D 
recombinante montre (figure 6) des temps de retention correspondent aux 
GOS prealablement identifies R4 et R5 (2). Les oligosaccharides de type R 
sont les series de GOS lineaires, le lien a(1 -> 2) etant lie a I'extremite non- 
reductrice. La serie OD, GOS lineaires resultant de liens glycosidiques a(1 
-> 6) avec un residu maltose a I'extremite reductrice, a ete observee en tres 
faibles quantites. Trois nouveaux composes sont en revanche detectes 
dans les produits de I'enzyme recombinante. 

Identification des GOS produits : 

Finalement, la figure 6b montre clairement que les pics 5 et 7 
representant les GOS de la serie R sont relativement plus importants avec 
I'enzyme recombinante qu'avec lenzyme native dont les pics 
correspondant au panose et a OD5 sont plus importants. 

Exemple 4 : Effet de la deletion de CD2 sur I'activite 
enzymatique de DSR-D 

L'ADN genomique de L mesenteroides B-1299 est utilise comme 
matrice pour amplifier par pcr le gene dsrO delete de la sequence cor- 
respondant au second domaine catalytique. Pour cela, 2 oligonucleotides, ECHO- 
dir (5'-AGTTGTATGAGAGACATGAGGGTAATTTGTGACCGTAAAAAATTG) (SEQ. ID 
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No. 6), correspondant a la sequence nucleotidique -6 a 39 et contenant le 
codon d'initiation de la • traduction, et ECHO-inv-del (5- 
GTATTAGTGAATAAGTATTCACCATTGCATTTATCGTCAAAATAGTACG) (SEQ. ID 
No. 7), complementaire de la sequence 5889-5937 et correspondant a la 
sequence peptidique YYFDDKGNGEYCFTNT, ont ete synthetisees, afin de 
fusionner Textremite C-terminale de la proteine deletee avec un tag His 
present sur.le. vecteur de clonage. La reaction PCR a ete realisee grace a 
un DNA thermal cycler model 2400 (Perkin-Elmer) , avec le systeme 
Expand Long. Template System (Boehringer Mannheim), suivant le cycle de 
temperature: 94°C pendant 3 min, puis 25 cycles avec : 30 s a 94°C, 30s a 
55°C et 7. min a 68°C. le produit PCR a en suite ete clone dans le vecteur 
donneur pUNI, et le plasmide resultant, utilise dans une reaction de 
recombinaison avec le vecteur d'expression pCR-T7-Acte/0. *„<.. 

La preparation des extraits cellulaires, les reactions 
.enzymattques, I'analyse des produits de la reaction sont les memes fque 
dans Hexemple 3 ci-dessus. . • . .. . ■ : :,-vi 

. Le profil HPLC des GOS obtenus avec I'erizyme DSR-D 

deletee du domaine CD2 apparatt dans la figure 6 c). . , . . 

Les GOS de type R, representes par les pics 5 et 7 visibles. 

dans la figure 6 a) et 6 b) sont totalement absents des produits obtenus 
avec I'enzyme recombinante deletee de CD2, Les seuls produits 
analysables sont ceux correspondant a des oligosides iineaires resultant de 
liens cc(1 -> 6) avec un residu maltose dans la partie reductrice. Ce resultat 
indique clairement le role essentiel du domaine catalytique situe-dans la 
partie carboxy-terminale de I'enzyme dans sa capacite a former des 
liaisons osidiques a(1 2). ...... 

En conclusion, les inventeurs ont reussi en isolant une 
dextrane saccharase particuliere : produite par L. ' mesenteroides a 
caracteriser une structure particuliere et inattendue de cette enzyme apte a 
produire des oligosides d'i.nteret et presentant des ramifications de type 
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a(1->2). L'identification et la caracterisation de cette sequence permettent 
d'une part de construire des cellules ou organismes recombinants 
exprimant de facon specifique cette enzyme et, d'autre part, d'en envisager 
sa modification par mutagenese dirigee ou aleatoire ou par evolution 
moleculaire (DNA Shuffling) afin d'en ameliorer encore ses caracteristiques. 

Cette invention permet en outre d'ameliorer le rendement et la 
reproductibilite de la production des GOS d'interet pour les differentes 
applications citees ci-avant. 
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REVEMDICATIONS 



1. Polypeptide isole ayant une activite enzymatique de 
glycosyltransferase apte a former des dextran.es presentant des 
ramifications a(1 2) a partir de saccharose, d'a-D-fluoro-glucose, de 
para-nitrophenyl-a-D-glucopyranoside, d*a-D-glucopyranoside-aD- 
sorbofurano-side ou de 4-O-aD-galactopyranosylsucrose, caracterise en ce 
qu'il comprend au moins un domaine de liaison au glucane et un domaine a 
activite catalytique situe en aval du domaine de liaison au glucane. 

2. Polypeptide selon la revendication 1 comprenant au moins 
deux domaines catalytiques situes de part et d'autre du domaine de liaison 
au glucane. 

3. Polypeptide selon la revendication 1 ou 2 presentant une 
structure telle que representee dans la figure 1b. 

4. Polypeptide selon I'une des revendications 1 a 3 dans 
lequel le ou les domaine(s) a activite catalytique a (ont) un pourcentage de 
similarity compris entre 65 % et 100 % avec la SEQ. ID :n°1. 

5. Polypeptide selon I'une des revendications precedentes 
dans lequel la taille du domaine de liaison au glucane est superieure a 
500 aminoacides. 



6. Polypeptide selon la revendication 5. ayant la SEQ. ID : n°2. 

7. Polypeptide selon la revendication 6 modifie par 
substitution, insertion, deletion de sequences d'acides amines et 
comportant des sequences presentant au moins 80 % et de preference au 
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REVENDICATIONS 

1. Polypeptide isol6 ayant une activite enzymatique de 
glycosy (transferase apte a former des dextranes presentant des 
ramifications a(1 -> 2) a partir de saccharose, d'a-D-fluoro-glucose, de 
para-nitrophenyl-a-D-glucopyranoside, d'a-D-glucopyranoside-aD- 
sorbofurano-side ou de 4-O-aD-galactopyranosylsucrose, caracterise en ce 
qu'il comprend au moins un domaine de liaison au glucane et un domaine a 
activite catalytique situe en aval du domaine de liaison au glucane: . 

2. Polypeptide selon la revendication 1 comprenant au moins, 
deux domaines catalytiques situes de part et d'autre du domaine de liaison^ 
au glucane. , .| 

3. Polypeptide selon la revendication 1 ou 2 comprenant ua, 
peptide signal, une region variable, deux domaines catalytiques et un 0 * 
domaine de liaison au glucane situe entre les deux domaines catalytiques. }■ 

4. Polypeptide selon Tune des revendications 1 a. 3 dans 
lequel le ou les domaine(s) a activite catalytique a (ont) un pourcentage de 
similarite compris entre 65 % et 100 % avec la SEQ. ID :n°1 . 

5. Polypeptide selon Tune des revendications precedentes 
dans lequel la taille du domaine de liaison au glucane est superieure a 
500 aminoacides. 

6. Polypeptide selon la revendication 5. ayant la SEQ. ID : n°2. 

7. Polypeptide selon la revendication 6 modifie par 
substitution, insertion, deletion de sequences decides amines et 
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moins 90 % de similarite avec les sequences suivantes de la sequence ID 
n° 2 : 

423-439 2120-2138 

478-501 2161 -2184 

519-539 2202-2214 

560-571 2243-2250 

631 -645 2315-2322 

1014- 1021 2689-2696 

8. Polypeptide selon la revendication 7 dans lequel les acides 
amines suivants sent inchanges : 

W en positions 425 et 2122, 

E en positions 430, 565 et 2127, 2248, 

D en positions 487, 489, 527, 638, 2170, 2172, 2210 et 

2322, 

H en position 637 et 2321, 
Q en position 1019 et 2694. 

9. Acide nucleique isole codant une enzyme a activite 
glycosyltransferase apte a former des dextranes presentant des 
ramifications a1 -> 2 a partir de saccharose, d'a-D-fluoro-glucose, de para- 
nitrophenyl-a-D-glucopyranoside, d'a-D-glucopyranoside-cxD-sorbofurano- 
side ou de 4-O-a-D-galactopyranosylsucrose, et comprenant au moins une 
sequence nucleotidique codant un domaine catalytique ayant au moins 
50 %, et de preference au moins 80 % d'identite avec la sequence ID n° 3, 
et situe en 3' d'une sequence codant un domaine de liaison au glucane. 
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comportant des sequences presentant au moins 80 % et de preference au 
moins 90 % de similarite avec les sequences suivantes de la sequence ID 

n° 2 : 

423 - 439 (SEQ. ID n° 6) 21 20 

478 - 501 (SEQ. ID n° .7) 2161 
51 9 - 539 (SEQ. ID n° 8) 2202 
560 - 571 (SEQ. ID n° 9) 2243 
631 - 645 (SEQ. ID n° 10) 2315 
1014- 1021 (SEQ ID n° 11) 2689 

8. Polypeptide selon la revendication 7 dans lequel les acides 
amines suivants sont inchanges : , 

W en positions 425 et 2122, ... . £ ■ 

E en positions 430, 565 et 2127, 2248, jp 
D en positions 487, 489, 527, 638, 2170, 2172, 2210 eti 

2322, . : . 

H en position 637 et 2321 , 
Q en position 1019 et 2694. 

9. Acide nucleique isole codant une enzyme a activite - 
glycosyltransferase apte a former, des dextranes presentant des 
ramifications a1 -> 2 a partir de saccharose, d'a-D-fluoro-glucose,-de para- 
nitrophenyl-a-D-glucopyranoside, d'a-D-glucopyranoside-aD-sorbofurano- 
side ou de 4-O-a-D-galactopyranosylsucrose, et comprenant au moins une 
sequence nucleotidique codant un domaine catalytique ayant au moins 
50 %, et de preference au moins 80 % d'identite avec la sequence ID n° 3, 
et situe en 3' d'une sequence codant un domaine de liaison au glucane. 



-2138 (SEQ. ID n° 12) 
-2184 (SEQ. ID n° 13) 
-2214 (SEQ. ID n° 14) 
-2250 (SEQ. ID n° 15) 
-2322 (SEQ. ID n° 16) 
-2696 (SEQ. ID n° 17) 
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10. Acide nucleique selon la revendication 9 comprenant : 

a) deux sequences codant des domaines catalytiques ayant 
au moins 50%, et de preference au moins 80% d'identite avec la 
sequence ID n° 3 (1324 - 3922) ; 

b) une sequence codant le domaine de liaison au glucane, ce 
dernier etant situe de preference entre les deux sequences en a). 

11. Acide nucleique isole selon la revendication 10 presentant 
au moins 80 % d'identite avec 

a) la sequence ID n° 4 ou ; 

b) le brin complementaire de la sequence en a), ou 

c) une sequence hybridant a) ou b) en conditions stringentes. 

12. Acide nucleique isole selon la revendication 11 constitue 
de la sequence ID n° 4 ou son brin complementaire ou de la sequence 
deduite de la degenerescence du .code genetique. 

13. Acide nucleique isole selon la revendication 11 

comprenant : 

a) une sequence ayant au moins 80% d'identite avec la 
sequence codant une dextrane saccharase exprimee par le plasmide pCR- 
T7-dsr D depose a la CNCM le 15 mars 2001 sous le numero I-2669, ou 

b) une sequence complementaire de la sequence en a). 

14. Vecteur d'expression comprenant un acide nucleique 
selon Tune quelconque des revendications 9 a 13. 

15. Vecteur selon la revendication 14 dans lequel I'acide 
nucleique est sous le controle de sequence permettant son expression 
dans des cellules procaryotes ou eucaryotes. 
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10. Acide nucleique selon la revendication 9 comprenant : 

a) deux sequences codant des domaines catalytiques ayant 
au moins 50%, et de preference au moins 80% d'identite avec la 
sequence ID n° 3 ; 

b) une sequence codant le domaine de liaison au glucane, ce 
dernier etant situe de preference entre les deux sequences en a). 

11. Acide nucleique isole selon la revendication 10 presentant 
au moins 80 % d'identite avec : . ! 

a) la sequence ID n° 4 ou ; 

b) le brin complementaire de la sequence en a), ou 

c) une sequence hybridant a) ou b) en conditions stringentes. 

— 12. Acide nucleique isole selon la revendication 11 corjstitue 
de la sequence ID n° 4 ou son brin complementaire ou de la sequence 
deduite de la degenerescence du-.code genetique. * . ; v u, 

13. Acide nucleique isole selon la revendication 1 1 

comprenant : 

a) une sequence ayant au moins 80 %' d'identite avec la 
sequence codant une dextrane saccharase exprimee par le plasmide pCR- 
T7-dsr D depose a la CNCM le 15. mars 2001 sous le numero l-2649, ; ou 

b) une sequence complementaire de la sequence en a). 

.... . 14. Vecteur depression comprenant un acide nucleique 
selon Tune quelconque des revendications 9 a 13. , 

, 15. Vecteur selon la revendication 14 dans lequel I'acide 
nucleique est.sous le controle de sequence permettant^son expression 
dans des cellules procaryotes ou eucaryotes. - - • 
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16. Cellule hote transformee par un acide nucleique selon 
I'une des revendications 9 a 13 ou un vecteur selon Tune des 
revendications 14 a 15. 



17. Cellule transformee selon la revendication 16 choisie dans 
un groupe comprenant E. coli, les leuconostoc, les vegetaux, les 
Lactococcus et les Bacillus ou les levures ; 

18 cellule transformee selon la revendication 17 caracterisee 
en ce qu'il s'agit d'une souche de E.coli deposee a la CNCM le...sous le 

n°... 



19. Procede de production d'une dextrane saccharase apte a 
former des liaisons a1 -» 2 comprenant : 
15 a ) I'insertion d'un acide nucleique selon I'une des 

revendications 9 a 13 ou un vecteur selon I'une des revendications 14 a 15 
dans une cellule hote selon la revendication 16; 

b) la purification de I'enzyme a partir d'un extrait cellulaire. 



20 



25 



20. Procede selon la revendication 1 9 dans lequel la cellule 
hote est un procaryote choisi dans un groupe comprenant E. coli, les 
Lactococci, les Bacillus, les Leuconostoc. 

21. Procede selon la revendication 19 dans lequel la cellule 
hote est un eucaryote choisi dans un groupe comprenant les levures, les 
champignons, les vegetaux. 



30 



22. Procede d'obtention d'une dextrane saccharase apte a 
former des oligosides ou des dextranes presentant un taux de liaison 
a(1 2) supeheur a 30 % des liaisons totales comprenant une etape de 
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. . . 16. Cellule hote transforrnee par un acide nucleique selon 
rune des revendications 9 a 13 ou un vecteur selon Tune des 
revendications 14 a 15. 

17. Cellule transforrnee selon la revendication 16 choisie dans 
un groupe cornprenant E, coli, les leuconostoc, les .vegetaux, les 
Lactococcus et les Bacillus ou les levures ; 

18 cellule transforrnee selon la revendication 17 caracterisee 
en ce qu'il s'agit d'une souche de E.coli deposee a la CNCM le 
15 mars 2001 sous le n° I-2649. 

19. Precede de production d'une dextrane saccharase apte a 
former des liaisons a1 2 cornprenant : . *v 

a) • Tinsertion d'un .acide nucleique selon I'une^ des 
revendications 9 a 13,ou un vecteur selon Tune des revendications 14 a 15 
dans une cellule hote selon la revendication 16; 

b) la purification de I'enzyme a partir d'un extrait cellulaire. 

20. Procede selon la revendication 19 dans lequel la cellule 
hote est un procaryote choisi dans, un groupe cornprenant E. coli, les 
Lactococci, les Bacillus, les Leuconostoc • ; ....... 

21. Procede selon la revendication 19 dans lequel la cellule 
hote est un eucaryote choisi dans un groupe. comprenapt les. levures, les 
champignons, les vegetaux. . 

...22. Procede ^d'obtentiotv d'une dextrane saccharase apte a 
former des oligosides ou des dextranes , presentant un taux .de liaison 
a(1 2) superieur a 30 % des liaisons totales cornprenant urie etape de 
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modification de la sequence ID n° 4 par addition, deletion, mutation a partir 
du moment ou : 

- le cadre de lecture n'est pas modifie, et 

- les acides amines suivants sont conserves apres traduction : 

W en positions 425 ou 2122, code par le triplet TGG en 
positions 1273 et 6364, 

E en positions 430, 565, 2127 et 2248 codes par les 
triplets GAA en positions 1288, 1693, 6379 et 6742 
respectivement, 

D en positions 487, 489, 527, 638, 2170 et 2210 codes par 
les triplets GAT en positions 1459, 1465, 1579, 1912, 
6508 et 6628 respectivement, 

D en positions 2172 et 2322 codes par les triplets GAT en 
positions 6514 et 6964, 

H en position 637 et 2321, codes respectivement par les 
triplets CAT en position 1909 et CAC en position 6961, 
Q en positions 1019 et 2694 codes respectivement par les 
triplets CAA (3055) et CAG (8080). 

23. Procede d'obtention d'une glycosyltransferase isolee apte 
a former des oiigosides ou des dextranes presentant un taux de liaison 
cx(1 2) superieur a 30 % comprenant : 

- une etape de modification aleatoire de la sequence ID n° 4 
et d'etablissement d'une banque de variants, 

- une etape d'expression de ces sequences modifiees dans 
une cellule note appropriee, un note abritant un variant, 

- une etape de criblage des hotes exprimant une enzyme apte 
a former plus de 30 % de liaison a(1 -> 2) sur un substrat approprie, 

- une etape d'isolement du ou des genes ameliores. 
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modification de la sequence ID n° 4 par addition, deletion, mutation a partir 
du moment ou : * " . 

- le cadre de lecture n'est pas modifie, et 

- les acides amines suivants sont conserves apres traduction : 

W en positions 425 ou 2122, code par le triplet TGG en 
positions 1273 et 6364, 

E en positions 430, 565, 2127 et 2248 codes par les 
triplets GAA en positions 1288, 1693, 6379 et 6742 
respectivement, ■. 

D en positions 487, 489, 527, 638, 2170 et 2210 codes par 
les triplets GAT en positions 1459, 1465, 1579, 1912, 
6508 et 6628 respectivement, 

D en positions 2172 et 2322 codes par les triplets GAT en 
positions 6514 et 6964, -<f 
H en position 637 et<2321, codes respectivement par les 
triplets CAT en position 1 909 et CAC en position 6961 , . / 
- , . Q en positions *1019 et 2694 codes respectivement par les 

triplets CAA (3055) et CAG (8080). v\ 

23. Precede d'obtention d'une glycosyltransferase isolee apte 
a former des oligosides ou des dextranes presentant un taux de liaison 
a(1 2) superieur a 30 % comprenant : ■. ■ : <• *■ 

- une etape de modification aleatoire de la sequence ID n° 4 
et d'etablissement d'une banque de variants, . r • - 

, , - une etape d'expression de ces sequences modifiees dans 

une cellule hote appropriee, un hote abritant un variant, ' 

- une etape de criblage des hotes exprimant une enzyme apte 
a former plus de 30 % de liaison a(1 -> 2) sur un substrat approprie,< t- 

•r une etape. d*isolement du ou des genes ameliores. 
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24. glycosyltransferase apte a former au moins 30% de 
liaison ct(1 -> 2) susceptible d'etre obtenue par un procede selon Tune des 
revendications 19 a 22. 



25. Utilisation d'une glycosyltransferase obtenue par 
procede selon I'une des revendications 19 a 22 dans la fabrication d'i 
composition a effet prebiotique. 



10 



26. Utilisation d'une glycosyltransferase obtenue par un 
procede selon Tune des revendications 19 a 23 dans la fabrication d'une 
composition pharmaceutique ou cosmetique. 
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24. glycosyltransferase apte a former au moins 30 % de 
liaison a(1 -» 2) susceptible d'etre obtenue par un proeede selon Tune des 
revendications 19 a 22. 

25. Utilisation d'une glycosyltransferase obtenue par un 
proeede selon Tune des revendications 19 a 22 dans la fabrication d'une 
composition a effet prebiotique. 

26. Utilisation d'une glycosyltransferase* obtenue par un 
proeede selon Tune des revendications 19 a 23 dans la fabrication d'une 
composition pharmaceutique ou cosmetique. 
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Fig. 7 

(i) CARACTERISTIQUES DE LA SEQUENCE : 

(A) LONGUEUR : 8 56 acides amines 

(B) TYPE : acides amines 
(A) TOPOLOGIE : lineaire 

(ii) TYPE DE MOLECULE : proteine 



(x) DESCRIPTION DE LA SEQUENCE : SEQ ID NO:l: 



Leu 
1980 

Asp Met Ser Thr Asn Ala Phe Ser Thr Lys- Asn Val Ala Phe Asn 

1985 1990 1995 

His Asp Ser Ser Ser Phe Asp His Thr Val Asp Gly Phe Leu Thr 

2000 2005 ' 2010 

Ala Asp Thr Trp Tyr Arg Pro Lys Ser lie Leu Ala . Asn Gly Thr 

2015 2020 2025 



Thr. Trp Arg Asp Ser Thr Asp Lys Asp Met Arg Pro Leu lie Thr 

2030 2035 2040 

Val Trp Trp Pro Asn Lys Asn Val Gin Val Asn Tyr Leu Asn Phe 

2045 2050 2055 

Met Lys Ala Asn Gly Leu Leu Thr Thr Ala Ala Gin Tyr Thr Leu 

2060 • 2065 . ' 2070 

His Ser Asp Gin Tyr Asp Leu Asn Gin Ala Ala Gin Asp Val Gin 

2075 2080 2085 

Val Ala lie Glu Arg Arg lie Ala Ser Glu His Gly Thr Asp Trp 
; 2090 2095 ' 2100 

Leu Gin Lys Leu Leu Phe Glu Ser Gin Asn Asn Asn Pro Ser Phe 

2105 2110 . 2115 

Val Lys Gin Gin Phe lie Trp Asn Lys Asp Ser Glu Tyr His Gly 
, . ,2120. ' . ; . . . .: 2125 • • • ' 2130 

Gly Gly Asp Ala. Trp Phe Gin Gly Gly Tyr Leu Lys Tyr Gly Asn 

2135_ 2140 2145 
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Asn Pro Leu Thr Pro Thr Thr Asn Ser Asp Tyr Arg Gin Pro Gly 

2150 2155 ' 2160 

Asn Ala Phe Asp Phe Leu Leu Ala Asn Asp Val Asp Asn Ser Asn 

2165 2170 " 2175 

Pro Val Val Gin Ala Glu Asn Leu Asn Trp Leu His Tyr Leu Met 

2180 2185 " 2190 

Asn Phe Gly Thr He Thr Ala Gly Gin Asp Asp Ala Asn Phe Asp 

2195 2200 2205 

Ser He Arg He Asp Ala Val Asp Phe He His Asn Asp Thr He 

2210 2215 2220 

Gin Arg Thr Tyr Asp Tyr Leu Arg Asp Ala Tyr Gin Val Gin Gin 

2225 2230 2235 

Ser Glu Ala Lys Ala Asn Gin His He Ser Leu Val Glu Ala Gly 

2240 2245 2250 

Leu Asp Ala Gly Thr Ser Thr He His Asn Asp Ala Leu He Glu 

2255 2260 2265 

Ser Asn Leu Arg Glu Ala Ala Thr Leu Ser Leu Thr Asn Glu Pro 

2270 2275 2280 

Gly Lys Asn Lys Pro Leu Thr Asn Met Leu Gin Asp Val Asp Gly 

2285 2290 2295 

Gly Thr Leu He Thr Asp His Thr Gin Asn Ser Thr Glu Asn Gin 

2300 2305 2310 

Ala Thr Pro Asn Tyr Ser He He His Ala His Asp Lys Gly Val 

2315 2320 " " 2325 

Gin Glu Lys Val Gly Ala Ala He Thr Asp Ala Thr Gly Ala Asp 

2330 2335 2340 

Trp Thr Asn Phe Thr Asp Glu Gin Leu Lys Ala Gly Leu Glu Leu 

2345 2350 2355 

Phe Tyr Lys Asp Gin Arg Ala Thr Asn Lys Lys Tyr Asn Ser Tyr 

2360 2365 2370 

Asn He Pro Ser lie Tyr Ala Leu Met Leu Thr Asn Lys Asp Thr 

2375 2380 2385 

Val Pro Arg Met Tyr Tyr Gly Asp Met Tyr Gin Asp Asp Gly Gin 

2390 2395 ' 2400 
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Tyr Met Ala Asn Lys Ser lie Tyr Tyr Asp Ala Leu Val Ser Leu 

2405 2410 2415 

Met Thr Ala Arg Lys Ser Tyr Val Ser Gly Gly Gin Thr Met Ser 

2420 2425 2430 

Val Asp Asn His Gly Leu Leu Lys Ser Val Arg Phe Gly Lys Asp 

2435 2440 2445 

Ala Met Thr Ala Asn Asp Leu Gly Thr Ser Ala Thr Arg Thr Glu 

2450 2455 " 2460 

Gly Leu Gly Val He .lie Gly Asn Asp Pro Lys Leu Gin Leu Asn 

2465 2470 2475 

Asp Ser Asp Lys Val Thr Leu Asp Met. Gly Ala Ala His Lys Asn 

2480 2485 2490 

Gin .Lys Tyr Arg Ala Val lie Leu Thr Thr Arg Asp Gly Leu Ala 

2495 2500 2505 

Thr Phe Asn Ser Asp Gin Ala Pro Thr Ala Trp Thr Asn Asp Gl-n 

2510 2515 . 252.0 

Gly Thr Leu Thr Phe Ser Asn Gin Glu lie Asn Gl-y .Gin Asp Asn 

2525 2530 253.5 

Thr Gin lie Arg Gly Val Ala Asn Pro Gin Val Ser Gly Tyr Leju 

2540 •, 2545 ' 2550 

Ala Val Trp . Val Pro Val Gly Ala Ser Asp Asn Gin Asp Ala Arg 

2555 2560 2565 

Thr Ala Ala Thr Thr Thr Glu Asn His Asp Gly Lys Val Leu His 

2570 2575 2580 

Ser Asn Ala Ala. Leu Asp Ser Asn Leu lie Tyr Glu Gly Phe Ser 

2585 - 2590 " " 2595 

Asn Phe Gin Pro Lys Ala Thr Thr His Asp Glu Leu Thr Asn Val 
• . 2600 . . 2605 2610 

Val lie Ala Lys Asn Ala Asp Val Phe Asn .Asn Trp Gly lie Thr 

2615 2620 ' 2625 

Ser Phe- Glu Met Ala Pro Gin Tyr Arg Ser Ser Gly Asp His Thr 

2630 . 2635 ■ '. ■ . " 2640 

Phe Leu Asp. Ser Thr lie Asp Asn Gly Tyr Ala Phe Thr Asp Arg 

2645 . 2650 2655 
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Tyr Asp Leu Gly Phe Asn Thr Pro Thr Lys Tyr Gly Thr Asp Gly 

2660 2665 2670 

Asp Leu Arg Ala Thr lie Gin Ala Leu His His Ala Asn Met Gin 

2675 2680 2685 

Val Met Ala Asp Val Val Asp Asn Gin Val Tyr Asn Leu Pro Gly 

2690 2695 2700 

Lys Glu Val Val Ser Ala Thr Arg Ala Gly Val Tyr Gly Asn Asp 

2705 2710 2715 

Asp Ala Thr Gly Phe Gly Thr Gin Leu Tyr Val Thr Asn Ser Val 

2720 2725 2730 

Gly Gly Gly Gin Tyr Gin Glu Lys Tyr Ala Gly Gin Tyr Leu Glu 

2735 2740 2745 

Ala Leu Lys Ala Lys Tyr Pro Asp Leu Phe Glu Gly Lys Ala Tyr 

2750 2755 2760 

Asp Tyr Trp Tyr Lys Asn Tyr Ala Asn Asp Gly Ser Asn Pro Tyr 

2765 2770 2775 

Tyr Thr Leu Ser His Gly Asp Arg Glu Ser lie Pro Ala Asp Val 

2780 2785 2790 

Ala lie Lys Gin Trp Ser Ala Lys Tyr Met Asn Gly Thr Asn Val 

2795 2800 2805 

Leu Gly Asn Gly Met Gly Tyr Val Leu Lys Asp Trp His Asn Gly 

2810 2815 2820 

Gin Tyr Phe Lys Leu Asp Gly Asp Lys Ser Thr Leu Pro Gin lie 

2825 2830 2835 
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Fig. 8 



(i) CARACTERISTIQUES DE LA SEQUENCE : . 

(A) LONGUEUR : 2835 amino acids 

(B) TYPE: acide amine 
(A) TOPOLOGIE lineaire 

(ii) TYPE DE MOLECULE : proteine 

(x) DESCRIPTION DE LA SEQUENCE : SEQ ID NO: 2 



Met Arg Asp Met Arg 
1 ' 5 

Ser Gly Lys Val Leu 

20 

Phe Gly Val Thr Thr 

35 

i "i * f ' 

Asp Thr'Asn His Ser 

50 

Val Asp Lys Val Asn 

65 

Val Val Ala Val Ala 

80 

Thr Val Ser Ala Pro 

95 

Ser Thr Thr Pro Ala 

110 

Thr Pro Ala Ala Asp 

125 

Ala Ala Asp Lys Ala 

14 0 

Asn Lys Ala Val Asp 

155 

Ala Val Ala Thr Pro 



Val lie Cys Asp Arg 

10 

Val Thr Ala Gly He 

25 

Ala Ser- Val Ser Ala 

40 

• .' \ .-. . . "• - -. ' 
Arg Thr Ser Ala Gin 

55 

Asp Asp Lys Thr Thr 

70 

Thr Thr Pro Ala Thr 

85 

Ala Ala Asp Lys Ala 

100 

Thr Asp Lys Ala Val 

115 

Lys Ala Val Asp Thr 

130 

Val Asp Thr Thr Pro 

145 

Thr Thr Pro Ala Thr 

160 

Ala Thr Pro Ala Ala 
8/1 



Lys Lys Leu Tyr Lys 

15 

Phe Ala Leu Met Met 

30 

Asn Thr He Ala Val 

45 

He Asn Lys Ser Ala 

60 

Leu Gly Ala Ala Lys 

75 

Pro Val Ala Asp Lys 

90 

Val Asp Thr Thr Ser 

105 

Asp Thr Thr Pro Thr 

120 

Thr Pro Thr Thr Pro 

.135 

Thr Thr Pro Ala Ala 

150 

Ala Ala Thr Asp Lys 

165 

Asp Lys Leu Ala Asn 
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Thr Thr Pro Ala Thr Asp Lys Ala Val Ala Thr Thr Pro Ala Thr 

185 190 195 

Pro Val Ala Asn Lys Ala Ala Asp Thr Ser Ser lie His Asp Gin 

200 205 ~ 210 

Pro Leu Asp Thr Asn Val Pro Thr Asp Lys Ser Ala Asn Leu Val 

215 220 225 

Ser Thr Thr Gin Lys Ser Thr Asp Asn Gin Gin Val Lys Ser Thr 

230 235 240 

Glu Thr Ser His Leu Gin Glu lie Asn Gly Lys Thr Tyr Phe Leu 

245 250 255 

Asp Asp Asn Gly Gin Val Lys Lys Asn Phe Thr Ala lie lie Asp 

260 265 270 

Gly Lys Val Leu Tyr Phe Asp Lys Thr Ser Gly Glu Leu Thr Ala 

275 280 285 

Asn Ala Pro Gin Val Thr Lys Gly Leu Val Asn lie Asp Asn Ala 

290 295 300 

His Asn Ala Ala His Asp Leu Thr Ala Asp Asn Phe Thr Asn Val 

305 310 315 

Asp Gly Tyr Leu Thr Ala Asn Ser Trp Tyr Arg Pro Lys Asp lie 

320 325 * 330 

Leu Lys Asn Gly Thr Thr Trp Thr Pro Thr Thr Ala Glu Asp Phe 

335 340 * 345 

Arg Pro Leu Leu Met Ser Trp Trp Pro Asp Lys Asn Thr Gin Val 

350 355 360 

Ala Tyr Leu Gin Tyr Met Gin Ser Val Gly Met Leu Pro Asp Asp 

365 370 375 

Val Lys Val Ser Asn Asp Asp Asn Met Ser Thr Leu Thr Asp Ala 

380 385 390 

Ala Met Thr Val Gin Lys Asn lie Glu Ser Arg lie Gly Val Ser 

395 400 405 

Gly Lys Thr Asp Trp Leu Lys Gin Asp Met Asn Lys Leu He Asp 

410 415 420 

Ser Gin Ala Asn Trp Asn He Asp Ser Glu Ser Lys Gly Asn Asp 

425 4 30 ' " 435 
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His Leu .Gin Gly Gly Ala Leu Leu Tyr Val Asn Asp Asp Lys Thr 

440 * . 445 ' 450 

Pro Asn Ala Asn Ser Asp Tyr Arg Leu Leu Asn Arg Thr Pro Thr 

455 460 465 

Asn Gin Thr Gly Gin lie Thr Asp Pro Ser Lys Gin Gly Gly Tyr 

470 • 475 480 



Glu Met Leu Leu Ala Asn Asp Val Asp Asn Ser Asn Pro Val Val 

485 490 . 495 

Gin Ala Glu Gin* Leu Asn Trp Leu His Tyr Met Met Asn lie Gly 

500 505 510 



Thr lie Ala Glri Asn Asp Pro Thr Ala Asn Phe Asp Gly Tyr Arg 

* • * 515 520 : 525 

Val Asp Ala Val- Asp Asn> Val Asp Ala Asp Leu Leu Gin lie Ala 

530 535 . 540 

Gly Asp Tyr Phe. Lys. Ala Ala Tyr Gly Thr f Gly Lys Thr Glu Ala 

545 550 555 

Asn Ala Asn Asn' His lie Ser lie* Leu- Glu Asp Trp Asp Asn' Ash 

5 60 565 ' 57 0 

Asp Ser Ala Tyr lie Lys Ala His r Gly Asn' Asn' Gin Leu Thr- Met* 

575 ' 580 585 

Asp Phe 1 Pro Ala -His Leu. Ala Leu. Lys Tyr Ala Leu Asn Met' Pro 

590 ' 595 600 

Leu Ala Ala Gin ' Ser Gly Leu Glu . Pro Leu lie' Asn Thr Ser'' Letf 

605 610 615 

Val Lys,Arg\Gly Lys Asp: Ala Thr Glu Asn Glu Ala Gin Pro"' Asn 

620 625 630 

Tyr Ala, Phe lie 'Arg Ala His'. Asp Ser -Glu'Val Gin Thr Val' He' 

635 - - 640 ' • * 645 

Ala Gin . He" He. Lys Asp Lys He /Ash • Thr* .Lys Ser Asp 'Gly 1 Letf* 
r. ; 650 655 * ' 660 

Thr Val Thr Pro Asp Glu lie' Lys Gin-Ala Phe-Thr lie "Tyr Asn : 

665 • 67 0 675 

Ala .Asp Glu Leu lys. Ala Asp Lys- Glu Tyr ' Thr Ala Tyr Ash lie : 

680 ; .... 68 5 * • 690 
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Pro Ala Ser Tyr Ala Val Leu Leu Thr Asn Lys Asp Thr Val Pro 

695 700 ' 705 

Arg Val Tyr Tyr Gly Asp Leu Phe Ser Asp Asp Gly Gin Tyr Met 

710 715 " ~ 720 

Ser Gin Lys Ser Pro Tyr Tyr Asp Ala lie Thr Ser Leu Leu Lys 

725 730 735 

Ser Arg lie Lys Tyr Val Ala Gly Gly Gin Ser Met Asn Met Thr 

740 745 750 

Tyr Leu His Glu Cys Phe Asp Pro Ala Lys Asn Glu Thr Lys Pro 

755 760 ' 765 

Gin Gly Val Leu Thr Ser Val Arg Tyr Gly Lys Gly Ala Met Thr 

770 775 ^ 780 

Ala Asp Asp Leu Gly Asn Ser Asp Thr Arg Gin Gin Gly He Gly 

785 790 ~ 795 

Leu Val He Asn Asn Lys Pro Phe Leu Asn Leu Asn Asp Asp Glu 

800 805 ~ 810 

Gin He Val Leu Asn Met Gly Ala Ala His Lys Asn Gin Ala Tyr 

815 820 825 

Arg Pro Leu Met Leu Thr Thr Lys Ser Gly Leu Gin He Tyr Asp 

830 835 " 840 

Lys Asp Ala Gly Ala Pro Val Val Tyr Thr Asn Asp Ala Gly Gin 

845 850 ' 855 

Leu He Phe Lys Ser Asp Met Val Tyr Gly Val Ser Asn Pro Gin 

860 865 870 

Val Ser Gly Tyr Phe Ala Ala Trp Val Pro Val Gly Ala Ser Asp 

875 880 • 885 

Ser Gin Asp Ala Arg Thr Gin Ser Ser Gin Ser Glu Thr Lys Asp 

890 895 J 900 

Gly Asp Val Tyr His Ser Asn Ala Ala Leu Asp Ser Asn Val He 

905 910 ' 915 

Tyr Glu Gly Phe Ser Asn Phe Gin Ala Met Pro Glu Lys Asn Asp 

920 925 930 

Asp Phe. Thr Asn Val Lys He Ala Gin Asn Ala Lys Leu Phe Lys 

935 940 945 
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Asp Leu Gly lie Thr Ser Phe Glu Leu Ala Pro Gin Tyr Arg Ser 

950 955 " 960 

Ser Thr Asp Asn Ser Phe Leu Asp Ser Val He Gin Asn Gly Tyr 

965 970 975 

Ala Phe Thr Asp Arg Tyr Asp Val Gly Tyr Asn Thr Pro Thr Lys 

980 985 990 

Tyr Gly Thr Val Asp Gin Leu Leu Asp Ser Leu Arg Ala Leu His 

995 1000 1005 

Ala Gin Gly He Gin Ala He Asn Asp Trp Val Pro Asp Gin He 

1010 1015 1020 

Tyr Asn Leu Pro Gly Glu Gin He Val Thr Ala Val Arg Thr Asn - 

1025 1030 ' 1035 

Gly Ser Gly Lys Tyr Asp Tyr Asp Ser Val He Asn Asn Thr Leu - 

1040 ' 1045 1050 

Tyr Asp Ser Arg Thr Val Gly Gly Gly Glu Tyr Gin Glu Lys Phe 4- 

1055 1060 1065 4 

Gly. Gly.. Leu. Phe Leu- Asp. Gin. Leu Lys Lys Asp Tyr Pro" Ser Leu •-* 

1070 1075 " " 1080 , 



Phe Glu. Thr Lys Gin lie Ser Thr Asn Gin Pro Met Asn Pro" Asp ' :A 

1085 1090 . . 1095 /. 

Val Lys. lie Lys . Glu Trp- Ser Ala Lys Tyr Phe Asn Gly Ser' Asn' ' 

HOO 1105 ' mo 

He Gin. Gly Arg Gly Ala Trp Tyr Val -Leu Lys Asp Trp Ala'Thr' 

HI 5 1120 1125 

Asn Gin Tyr Phe Asn Val Ser Ser Asp Asn Gly Phe Leu "Pro : Lys • 

H30 .. 1135 1140 

Gin Leu Leu Gly Glu Lys.- Thr Ser Thr Gly Phe He Thr Glu Asn-' 

H45 1150 1155 

Gly Lys Thr Ser Phe -Tyr Ser Thr Ser. Gly .Tyr Gin Ala Lys Asp- 

1160 - . H65 1170 

Thr Phe. .He. Gin Asp Gly -Thr Asn, Trp- .Tyr. Tyr Phe Asp Asn Ala ' 

2175 • . H80 1185 

Gly Tyr Met. Leu Thr Gly Lys Gin Asn lie His-Asp Lys -Ash- Tyr '- - 

1190 , . 1195 1200 
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Tyr Phe Leu Pro Asn Gly Val Glu Leu Gin Asp Ala Tyr Leu Phe 

1205 1210 1215 

Asp Gly Asn Gin Glu Phe Tyr Tyr Asn Lys Ala Gly Glu Gin Val 

1220 1225 ^ i 2 30 

Met Asn Gin Tyr Tyr Gin Asp Ser Gin Asn Gin Trp His Tyr Phe 

1235 1240 1245 

Phe Glu Asn Gly Arg Met Ala He Gly Leu Thr Glu Val Pro Asn 

1250 1255 1260 

Ala Asp Gly Thr His Val Thr Gin Tyr Phe Asp Ala Asn Gly Val 

1265 1270 1275 

Gin He Lys Gly Thr Ala He Lys Asp Gin Asn Asn Gin Leu Arq 

1280 1285 1290 

Tyr Phe Asp Glu Ala Thr Gly Asn Met Val Val Asn Ser Trp Gly 

1295 1300 1305 

Gin Leu Ala Asp Lys Ser Trp Leu Tyr Leu Asn Ala Gin Gly Val 

1310 1315 1320 

Ala Val Thr Gly Asn Gin Lys He Asp Gly Glu Glu Tyr Tyr Phe 

1325 1330 i33 5 

Asn Ala Asp Gly Lys Gin Val Lys Gly Asn Ala He He Asp Asn 

1340 1345 1350 

Asn Gly Asp Gin Arg Tyr Tyr Asp Gly Asp Lys Gly Val Met Val 

1355 i3 6 o 1365 

Val Asn Ser Trp Gly Glu Leu Pro Asp Gly Ser Trp Leu Tyr Leu 

1370 1375 138() 

Asn Asp Lys Gly He Ala Val Thr Gly Arg Gin Val He Asn Asn 

1385 i3 9 o 1395 

Gin Val Asn Phe Phe Gly Asn Asp Gly Lys Gin He Lys Asp Ala 

1400 1405 ' 1410 

Phe Lys Leu Leu Ser Asp Gly Ser Trp Val Tyr Leu Asp Asp Lys 

1415 1420 . i 4 ^5 

Gly Leu He Thr Thr Gly Ala Lys Val He Asn Gly Leu Asn Met 

1430 1^35 ' 1440 

Phe Phe Asp Lys Asp Gly His Gin He Lys Gly Asp Ala Ser Thr 
1445 i45 0 ' 1455 
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Asp Ala Asn Gly Lys Arg His Tyr Tyr Asp Lys Asn Asp Gly His 

1460 " 1465 ■ ' 1470 

Leu Val Thr Asn Ser Trp Gly Glu Leu Pro Asp Gly Ser Trp Leu 

1475 1480 1485 

Tyr Leu Glu Glu Gin Gly Asp Ala Val Thr Gly Gin Arg Val lie 

1490 1495 1500 

Asp .Gly Lys .Thr Arg Tyr Phe Asp Glu Asp Gly Lys Gin lie Lys 

1505 1510 1515 

Asn Ser Leu Lys. Thr Leu Ala Asn Gly Asp Lys 'lie Tyr Leu Asp 

1520 1525 1530 

Gly Asp Gly Val Ala Ala Thr- Gly Leu Gin His Val Gly Asp Lys 

1535 1540 1545 

lie Met Tyr Phe Asp Glu Asp Gly Lys Gin Val Val Gly Lys 'Phe 

1550 • . 1555 1560 

Val Ser Ala LyS Asp Gly Ser Trp Tyr Tyr Leu Asn Gin Asp GASy 

1565 1570 15.75 

Val Ala Ala Val Gly Pro Ser Ser lie Asn Gly Gin Ser Leu Tyr ■ 
' " 1580 1585 '• 1590 

Phe Asp Gin Asp Gly Lys Gin Val Lys Tyr Asn Glu Val Arg Apn 

1595 1600 1605 

Ser Asp Gly Thr Thr Asn Tyr Tyr Thr Gly Leu Thr Gly Glu Lys 

1610 1615 1620 

Leu Thr Gin Asp Phe Gly Glu Leu Pro Asp Gly Ser Trp He Tyr 

1625 '. 1630 " ■ 1635 

Leu Asp Ala Gin Gly His Thr Val Thr Gly Ala Gin He He Asn 

1640 ■ 1645 • 1650 

Gly Gin Asn Leu Tyr Phe Lys Ala Asp Gly Gin Gin Val Lys Gly 

1655 1660 ' ' 1665 

His Ala Tyr Thr Asp Gin Leu Gly His Met Arg Phe Tyr Asp Pro 
.: . . 1670 . • 1675 ' • 1680 

Asp Ser Gly Asp Met Leu Ser Asn Arg Phe Glu Gin lie Thr Pro 
• ;■• i 1685 1690 1695 

Gly Val Trp Ala Tyr .Phe Gly. Ala Asp Gly Val' Ala He Thr Gly 1 

1700.. 1705 1710 
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Gin His 



Asp He Asn Gly Gin Lys Leu Phe Phe Asp Glu Thr Gly 
1715 1720 1725 



Tyr Gin Val Lys Gly Ser Gin Arg Thr He Asp Gly Thr Leu Tyr 

1730 1735 ' 1740 



Ser Phe 
Leu Leu 
Trp Gin 
Asp Ser 
Gin Ala 
Phe Ser 
Glu Gly 
Lys Thr 
Gly Leu 
Thr Gly 
Leu Phe 
Ala Gly 
Thr Arg 
Thr Val 
Gin He 



Asp Ser Gin Thr Gly Asn Gin Lys Arg Val Gin Thr Thr 
1745 1750 1755 

Pro Gin Ala Gly His Tyr He Thr Lys Asn Gly Asn Asp 
1760 1765 1770 

Tyr Asp Thr Asn Gly Glu Leu Ala Lys Gly Leu Arg Gin 
1775 1780 1785 

Asn Gly Lys Leu Arg Tyr Phe Asp Leu Thr Thr Gly He 
1790 1795 1800 

Lys Gly Gin Phe Val Thr He Gly Gin Glu Thr Tyr Tyr 
1805 , 1810 1815 

Lys Asp His Gly Asp Ala Gin Leu Leu Pro Met Val Thr 
1820 1825 1830 

His Tyr Gly Thr He Thr Leu Lys Gin Gly Gin Asp Thr 
1835 1840 1845 

Ala Trp Val Tyr Arg Asp Gin Asn Asn Thr He Leu Lys 
1850 1855 i860 

Gin Asn He Asn Gly Thr Leu Gin Phe Phe Asp Pro Tyr 
1865 1870 ' 1875 

Glu Gin Leu Lys Gly Gly Val Ala Lys Tyr Asp Asp Lys 
1880 1885 ' 1890 

Tyr Phe Glu Ser Gly Lys Gly Asn Leu Val Ser Thr Val 
1895 1900 1905 

Asp Tyr Gin Asp Gly His Tyr He Ser Gin Asp Gly Gin 
1910 1915 ' 1920 

Tyr Ala Asp Lys Gin Asn Gin Leu Val Lys Gly Leu Val 
1925 1930 " ' 1935 

Asn Gly Ala Leu Gin Tyr Phe Asp Asn Ala Thr Gly Asn 
1940 1945 1950 

Lys Asn Gin Gin Val He Val Asp Gly Lys Thr Tyr Tyr 
1955 i960 " i9 65 
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Phe Asp Asp Lys Gly .Asn Gly Glu Tyr Leu . Phe Thr Asn.Thr Leu 

1970 1975 1980 

Asp Met Ser Thr Asn Ala Phe Ser Thr Lys Asn Val Ala Phe Asn 

1985 1990 1995 



His Asp Ser Ser Ser Phe Asp -His . Thr Val Asp Gly Phe Leu Thr 

2000 2005 2010 

Ala Asp Thr Trp Tyr -Arg Pro Lys Ser lie Leu Ala Asn Gly Thr 
* / 2015 2020 , 2025 

Thr Trp Arg Asp Ser Thr Asp Lys Asp Met Arg Pro Leu lie Thr 

2030 2035 2040 

Val Trp Trp Pro Asn Lys Asn Val Gin Val Asn Tyr Leu Asn Phe 

2045 " 2050 2055 

Met Lys Ala Asn Gly Leu Leu Thr Thr Ala Ala Gin Tyr Thr Leu 
.. 2060 ' 2065 2070 

His Ser Asp Gin Tyr Asp Leu Asn Gin Ala Ala Gin Asp Val Gin. 
.. 2075 * , . 2080 . ■ ; 2085 

Val Ala lie Glu Arg Arg lie Ala Ser Glu His Gly Thr Asp Trp 
: V\ 2090 . ; . 2095 ; - . 2100 

Leu Gin Lys Leu Leu Phe Glu Ser Gin Asn Asn Asn Pro Ser Phe 

2105 2110 • . * 2115 

Val Lys Gin Gin Phe lie Trp Asn Lys Asp Ser Glu Tyr His Gly 
; ' 2120 2125 2130 

Gly Gly Asp Ala Trp Phe Gin Gly Gly Tyr . Leu Lys Tyr Gly Asn 

2135 2140 2145 

Asn Pro Leu Thr Pro Thr Thr Asn Ser Asp Tyr Arg Gin Pro Gly 
- ; 2150 . 2155 2160 

Asn Ala- Phe Asp Phe Leu. Leu Ala Asn Asp Val Asp Asn Ser Asn 
; \ : . ^ 2165 . . 2170 . 2175 

Pro Val; Val. Gin Ala Glu Asn Leu Asn Trp Leu His" Tyr Leu Met 

2180 , • 2185 .: 2190 

Asn Phe GLy_ Thr lie Thr . Ala Gly Gin Asp Asp. Ala Asn* Phe Asp 
v 2195 ' 2200 , 2205 

Ser Lie Arg .He; Asp Ala Val Asp Phe lie/ His Asn Asp Thr lie 
- - - * . ' 2210 2215 ... : 2220 
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Gin Arg Thr Tyr Asp Tyr Leu Arg Asp Ala Tyr Gin Val Gin Gin 

2225 2230 2235 

Ser Glu Ala Lys Ala Asn Gin His lie Ser Leu Val Glu Ala Gly 

2240 2245 2250 

Leu Asp Ala Gly Thr Ser Thr He His Asn Asp Ala Leu He Glu 

2255 2260 2265 

Ser Asn Leu Arg Glu Ala Ala Thr Leu Ser Leu Thr Asn Glu Pro 

2270 2275 2280 

Gly Lys Asn Lys Pro Leu Thr Asn Met Leu Gin Asp Val Asp Gly 

2285 2290 2295 

Gly Thr Leu He Thr Asp His Thr Gin Asn Ser Thr Glu Asn Gin 

2300 2305 2310 

Ala Thr Pro Asn Tyr Ser He He His Ala His Asp Lys Gly Val 

2315 2320 2325 

Gin Glu Lys Val Gly Ala Ala He Thr Asp Ala Thr Gly Ala Asp 

2330 2335 2340 

Trp Thr Asn Phe Thr Asp Glu Gin Leu Lys Ala Gly Leu Glu Leu 

2345 2350 " 2355 

Phe Tyr Lys Asp Gin Arg Ala Thr Asn Lys Lys Tyr Asn Ser Tyr 

2360 2365 ' 2370 

Asn He Pro Ser He Tyr Ala Leu Met Leu Thr Asn Lys Asp Thr 

2375 2380 2385 

Val Pro Arg Met Tyr Tyr Gly Asp Met Tyr Gin Asp Asp Gly Gin 

2390 2395 2400 

Tyr Met Ala Asn Lys Ser He Tyr Tyr Asp Ala Leu Val Ser Leu 

2405 2410 2415 

Met Thr Ala Arg Lys Ser Tyr Val Ser Gly Gly Gin Thr Met Ser 

2420 2425 2430 

Val Asp Asn His Gly Leu Leu Lys Ser Val Arg Phe Gly Lys Asp 

2435 2440 " 2445 

Ala Met Thr Ala Asn Asp Leu Gly Thr Ser Ala Thr Arg Thr Glu 

2450 2455 2460 

Gly Leu Gly Val He lie Gly Asn Asp Pro Lys Leu Gin Leu Asn 

2465 • . . 2470 2475 
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Asp Ser Asp. Lys Val Thr Leu Asp Met Gly Ala Ala His Lys Asn 

2480 2485 2490 

Gin Lys Tyr Arg Ala Val lie Leu Thr Thr Arg Asp Gly Leu Ala 

2495 2500 2505 

Thr Phe Asn Ser Asp. Gin Ala Pro Thr Ala Trp Thr Asn Asp Gin 
. . 2510 2515 2520 

Gly .Thr Leu Thr Phe Ser Asn Gin Glu lie Asn Gly Gin Asp Asn 

2525 2530 * 2535 

Thr Gin lie Arg. Gly Val Ala Asn Pro Gin Val Ser Gly Tyr Leu 
• ■ - ' 2540 2545 2550 

Ala Val Trp Val Pro Val Gly Ala Ser Asp Asn Gin Asp Ala Arg 

2555 2560 2565 

Thr Ala Ala Thr Thr .Thr Glu Asn His Asp Gly Lys Val Leu Hi's 
. ; 2570 - 2575 ' 2580 

Ser Asn Ala Ala Leu Asp Ser Asn Leu He Tyr Glu Gly Phe Ser &4 

2585 2590 ; " 2595 i 

Asn .Phe Gin .Pro Lys Ala Thr Thr His Asp Glu Leu Thr Asn Val 
:. 2600 . 2605 . 2610 

Val lie Ala Lys Asn Ala Asp Val Phe Asn Asn Trp Gly lie Thr j£ 

2 615 . 2 620 2 62 5 

Ser Phe Glu Met Ala Pro Gin Tyr Arg Ser Ser Gly Asp His Thr 

2630 2635 ' 2640 

Phe Leu Asp Ser Thr lie Asp Asn Gly Tyr Ala Phe Thr Asp Arg - 

2645 2650 2655 

Tyr Asp Leu Gly Phe Asn Thr Pro Thr Lys Tyr Gly Thr Asp Gly 
.. ' 2660 2665 ' ' 2670 

Asp Leu Arg Ala Thr He Gin Ala Leu His His Ala Asn Met Glh 

2675 2680 • ■ 2685 

Val Met Ala Asp Val Val Asp Asn Gin Val Tyr Asn Leu Pro Gly • 

2690 . 2695 -. ' 2700 

Lys Glu Val Val Ser Ala Thr Arg Ala. Gly Val Tyr Gly Asn' Asp 

2705 ' •• , 2710 ' . ' 2715 

Asp . Ala Thr. Gly, Phe Gly Thr Gin Leu Tyr Val Thr Asn Ser Val' 

2720 2725 2730 
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Gly Gly Gly Gin Tyr Gin Glu Lys Tyr Ala Gly Gin Tyr Leu Glu 

2735 2740 2745 

Ala Leu Lys Ala Lys Tyr Pro Asp Leu Phe Glu Gly Lys Ala Tyr 

2750 2755 2760 

Asp Tyr Trp Tyr Lys Asn Tyr Ala Asn Asp Gly Ser Asn Pro Tyr 

2765 2770 ' 2775 

Tyr Thr Leu Ser His Gly Asp Arg Glu Ser lie Pro Ala Asp Val 

2780 2785 2790 

Ala lie Lys Gin Trp Ser Ala Lys Tyr Met Asn Gly Thr Asn Val 

2795 2800 2805 

Leu Gly Asn Gly Met Gly Tyr Val Leu Lys Asp Trp His Asn Gly 

2810 2815 2820 

Gin Tyr Phe Lys Leu Asp Gly Asp Lys Ser Thr Leu Pro Gin lie 

2825 2830 2835 
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Fig. 9 

TTA 5 94 0 

L 1980 

5 94 1 GATATGTCTACTAA.TGCTTTTTCTACCAAAAATGTTGCATTCAATCATGACAGTAGCAGT 6000 

1981 DMSTNAFSTKNVAFN HDS SS 2000 

6001 TTGGACCATACTGTTGATGGCTTCTTGACGGCAGATACTTGGTATCGACCAAAGTCAATT 60 60 

2001 FDHTVDG FLTADTWYRPKS I 2020 

6061 . TTGGCTAACGGGACAACTTGGCGTGATTCGACTGATAAGGATATGCGACCATTAATCACT - 6120 

2021' L A *N G v T T W R D S T D K D M R P L I T 2040 

. j 

6121 GTTTGGTGGCCAAATAAGAATGTTCAAGTCAACTACCTCAACTTCATGAAAGCAAATGGC 6180 

2041 . V W W ' P N K N V Q V N Y L N F M K - A N G- 2060 

6181 TTGTTGACAACAGCAGCACAAT ACACACTACATTCAGATCAATATGATTTGAACCAAGCT < 62 4 0 

2061 LLTTAAQYTLHSDQYDLNQA 2080 

62 41 GCACAAGATGTTCAAGTGGCCATTGAAAGGCGCATTGCGTCAGAGCATGGCACAGACTGG^ : 6300 

2081 AQDVQV AI ERR I AS EH GT D W 2100 

6301 TTACAGAAATTGTTGTTTGAATCACAAAATAATAACCCATCATTTGTGAAGCAACAATTC 6360 

2101 LQKLLFESQNNNPSFVKQQF 2120 

6361 ATTTGG7\ACAAGGATTCTGAATATCATGGTGGTGGTGATGCTTGGTTCCAAGGTGGTTAT " ' 64 20 

2121 IWNKDSEYHGGGDAWFQGGY ' ? 2140 

64 21 CTGAAGTATGGCAATAACCCACTCACACCAACAACTAATTCTGATTATCGTCAACCTGGT 64 8 0 

2141 LKYGNNPLTPTTNSDYRQPG 2160 

64 81 AATGCATTTGATTTCTTGCTAGCCAACGACGTGGATAATTCTAATCCTGTTGTGCAAGCT 654 0 

2161 NAFDFLLANDVDNSNPVVQA 2180 

6541 GAAAACTTAAACTGGTTACATTACTTAATGAACTTTGGCACCATCACTGCGGGTCAAGAT 6600 

2181 ENLNWLHYLMNFGTITAGQD 2200 

6601 GACGCTAATTTTGATAGTATTCGTATTGACGCTGTCGACTTTATTCATAATGATACAATC 6660 

2201 DANFDSIRI DAVDFIHNDTI 2220 

6661 CAACGTACTTATGATTATCTTCGTGATGCTTATCAAGTGCAACAAAGTGAAGCCAAAGCA 6720 

2221 QRTYDYLRDAYQVQQSEAKA 2240 

67 21 AACCAGCACATTTCATTGGTTGAAGCTGGCTTAGACGCAGGTACATCAACGATTCATAAT 6780 

2241 N"QHISLVEAGLDAGTSTIH"N 2260 

67 8.1 GATGCGTTAATTGAGTCAAACCTCCGTGAAGCAGCGACATTGTCGTTAACAAATGAACCT 684 0 
2261 DAL I ESNLREAATLSLTNEP 2280 

68 41 GGTAAAAATAAACCATTGACGAATATGCTACAAGACGTTGACGGCGGTACGCTTATCACC 6900 
2281 GKNK PLTNMLQDVDGGTL I T 2300 
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6901 GACCATACGCAGAATAGTACAGAAAATCAGGCGACACCAAACTATTCAATTATTCACGCG 6960 

2301 DHTQNSTENQATPNYSIIHA 2320 

6961 CACGATAAAGGTGTGCAAGAAAAAGTAGGTGCAGCCATTACTGATGCTACTGGTGCTGAT 7 020 

2321 HDKGVQEKVGAAITDATGAD 2340 

7 021 TGGACGAACTTTACAGATGAACAGTTAAAAGCCGGATTAGAGCTATTCTATAAGGATCAG 7 08 0 

2341 WTNFTDEQLKAGLELFYKDQ 2360 

7 081 CGCGCAACAAACAAAAAGTATAATAGTTATAACATACCAAGTATTTATGCCCTGATGTTG 714 0 

2361 RATNKKYNSYNI PSIYALML 2380 

7141 ACAAACAAAGATACTGTTCCTCGTATGTATTATGGGGATATGTATCAAGATGACGGACAG 7 200 

2381 TNKDTVPRMYYGDMYQDDGQ 2400 

7 201 TATATGGCAAACAAGAGTATCTACTATGATGCCTTAGTGTCATTAATGACGGCTCGTAAA 7 2 60 

2401 YMANKS I YYDALVSLMTARK 2420 

72 61 AGCTATGTCAGCGGTGGTCAAACTATGAGTGTTGACAATCATGGTTTGTTGAAGAGTGTC 7 320 

2421 SYVSGGQTMSVDNHGLLKSV 2440 

7 321 CGTTTTGGAAAAGATGCGATGACAGCTAATGATTTAGGTACATCAGCTACGCGTACTGAG 7 380 

2441 RFGKDAMTANDLGTSATRTE 24 60 

7 381 GGTCTTGGTGTCATTATTGGTAATGATCCAAAGTTGCAACTTAATGATTCGGATAAAGTG 7 4 4 0 

2461 GLGVIIGNDPKLQLNDSDKV 2480 

74 41 ACACTGGATATGGGTGCAGCACATAAAAATCAAAAGTATCGCGCAGTTATCTTAACAACA 7 500 

2481 TLDMGAAHKNQKYRAVILTT 2500 

7 501 CGTGATGGTTTGGCAACCTTTAATTCAGATCAAGCACCAACAGCTTGGACAAACGATCAA 7560 

2501 RDGLATFNSDQAPTAWTNDQ 2520 

7 5 61 GGAACGTTAACATTCTCAAATCAAGAGATTAACGGGCAAGACAATACACAAATTCGTGGT 7 620 

2521 GTLTFSNQEINGQDNTQIRG 2540 

7 621 GTTGCTAATCCGCMGTTTCTGGTTATCTAGCTGTTTGGGTGCCTGTGGGTGCATCAGAC 7 680 

2541 VANPQVSGYLAVWVPVGASD 2560 

7 681 AATCAAGATGCCCGTACAGCAGCAACGACAACAGAAAATCATGATGGTAAAGTATTACAC 7 7 4 0 

2561 NQDARTAATTTENH DGKVLH 2580 

77 41 TCGAATGCGGCATTAGATTCTAACCTTATTTATGAAGGTTTCTCTAACTTCCAACCTi\AG 78 00 

2581 SNAALDSNLIYEGFSNFQPK 2600 

7 8 01 GCAACAACGCATGATGAACTTACGAACGTTGTAATTGCTAAAAATGCCGATGTCTTCAAT 7 8 60 

2601 ATTHDELTNVVIAKNADVFN 2620 

7 8 61 AATTGGGGTATTACGAGTTTTGAAATGGCACCACAGTACCGTTCAAGTGGGGACCATACA 7 920 

2 621 NWGITSFEMAPQYRS SGDHT 2640 

7 921 TTCTTGGATTCAACGATTGATAATGGTTATGCCTTCACTGATCGCTATGACTTAGGTTTC 7 980 

2641 FL DS T I DNG YAFT DRYDLG F 2660 

7 981 AATACACCAACAAAGTATGGCACTGATGGTGATTTGCGTGCAACGATTCAAGCGCTACAT 804 0 
2661 NT PTKYGT DGDLRAT IQALH 2680 

8 041 CATGCTAATATGCAAGTTATGGCTGACGTTGTTGATAACCAGGTCTATAACTTACCTGGT 8100 
2681 HANMQVMADVVDNQVYNLPG 2700 
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8101 AAAGAAGTT-GTTTCAGCAACACGAGCAGGTGTTTATGGTAATGACGACGCCACGGGCTTT . 8160 

2701 KE VV.SATRAGVYGNDDATG F 2720 

8161 GGAACGCAACTCTATGTGACTAACTCCGTTGGTGGTGGTCAATACCAAGAGAAATATGCT .8220 

2721 GTQL'YV.TNSVGGGQYQEKYA 2740 

8221 GGACAATACTTAGAAGCTCTGAAAGCAAAGTATCCAGACCTCTTTGAGGGTAAGGCCTAT 8280 

2741 GQYL EALKAKYPDLFEG KAY 2760 

82 81 • GATTATTGGTATAAGAACTATGCAAATGATGGGTCAAATCCTTACTATACATTGTCACAC 8 3 4 0 

2761 DYWYKNYANDGSNPYYTLSH .2780 

8 341 GGTGAQC.GTGAATCTATCCCAGCAGATGTTGCTATTAAGCAATGGTCAGCTAAGTATATG 8 4 00 

2781 G D R E S I PA D V A I K QW S A.K Y M 2800 

8 4 01 AACGGCACGAAGGTTTTGGGCAATGGTATGGGTTATGTATTG7VAGGATTGGCATAATGGT 8 4 60 

2801 N G * T N r V L G N G M G Y V L'K D W H N G 2820 

84 61 ' CAATATTTCAAGCTTGATGGTGATAAATCAACATTACCTCAAATTTAA 8508 

. 2821 Q.YFKL DGDKSTLPQI.* 2835 
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1 ATGAGAGACATGAGGGTAATTTGTGACCGTAAAAAATTGTACAAATCGGGCAAAGTACTA 60 

1 MRDMRVICDRKKLYKSGKVL 20 

6 1 GTAACAGCCGGTATTTTTGCTTTGATGATGTTTGGCGTCACAACTGCTAGTGTTAGTGCA 120 

21 VTAGI FALMMFGVTTASVSA 40 

121 AATACGATTGCAGTTGACACGAATCATAGCCGTACTTCAGCACAGATTAATAAGAGTGCC 180 

41 NT IAVDTNHSRTSAQINKSA 60 

181 GTTGATAAGGTTAATGATGACAAGACTACTTTAGGAGCGGCAAAAGTAGTGGCAGTAGCC 24 0 

61 VDKVN DDKTTLGAAKVVAVA 80 

2 4 1 ACAACGCCAGCGACACCGGTAGCAGATAAAACAGTAAGTGCACCCGCAGCAGATAAGGCA 300 
81 TTPAT PVADKTVSAPAADKA 100 

301 GTAGATACAACGTCATCAACGACACCTGCAACGGATAAGGCAGTAGATACAACGCCAACG 360 

101 VDTTS STTPATDKAVDTTPT 120 

3 61 ACACCTGCAGCAGATAAGGCAGTAGATACAACGCCAACGACACCTGCAGCAGATAAGGCA 4 20 
121 T PAADKAVDTT PTTPAADKA 140 

4 21 GTAGATACAACGCCAACGACACCTGCAGCAAATAAAGCAGTAGATACAACGCCAGCGACC 4 80 
141 VDTTPTTPAANKAVDTT PAT 160 

4 81 GCTGCAACAGATAAGGCGGTAGCCACGCCAGCCACACCTGCAGCAGATAAGCTAGCAAAT 54 0 

161 AATDKAVAT PAT l PAADKLAN 180 

54 1 ACGACGCCTGCAACGGACAAGGCAGTAGCCACAACGCCAGCGACGCCGGTAGCAAATAAA 600 

181 TTPAT DKAVATTPAT PVANK 200 

60 1 GCAGCAGACACGAGTAGTATTCATGATCAACCATTAGATACAAATGTGCCAACTGATAAA 660 

201 AADTS SIHDQPLDTNVPTDK 220 

661 TC AG C AAACC T CG T C T CGAC AAC ACAAAAAAG TACG G AT AAT C AAC AAG T T AAG TC T AC A 72 0 

221 SANLVSTTQKSTDNQQVKST 240 

7 21 GAAACATCTCATCTTCAAGAAATC AACGGT AAAACCTATTTTCTTGACGACAATGGTCAA 78 0 

241 ETSHLQEINGKTYFLDDNGQ 260 

7 81 GTTAAAAAGAACTTCACCGCTATTATTGACGGTAAAGTTCTATACTTTGATAAAACATCC 8 4 0 

261 VKKNFTAI IDGKVLYFDKTS 280 

84 1 GGCGAATTGACCGCAAATGCACCGCAAGTTACTAAGGGATTAGTAAATATTGATAATGCA 900 

281 GELTANAPQVTKGLVNIDNA 300 

901 CATAACGCGGCTCATGATCTCACAGCTGATAACTTCACAAATGTCGATGGTTACTTAACA 960 

301 HNAAH DLTADNFTNVDGYLT 320 

961 GCTAACAGTTGGTATCGTCCTAAGGACATCTTAAAAAACGGAACGACCTGGACACCAACA 1020 

321 ANSWYRPKDILKNGTTWTPT 340 
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1021 ACAGCAGAAGATTTTCGACCATTGCTCATGTCTTGGTGGCCGGATAAGAATACGCAGGTA 1080 

341 TAEDFRPLLMSWWPDKNTQV 360 

1081 GCTTATCTAC AATATATGCAATCAGTTGGTATGCTACCTGACGATGTT AAAGTATCAAAT 114 0 

361 AYLQYMQSVGMLPDDVKVSN 380 

1141 GATGATAATATGAGCACATTGACTGATGCTGCTATGACTGTTCAAAAGAATATCGAATCG 1200 

381 DDNMSTLTDAAMTVQKNI E S 400 

1201 CG7^ATTGGTGTATCTGGAAAAACTGATTGGCTCAAGCAAGATATGAACAAACTGATTGAT 12 60 

401 RIGVSGKTDWLKQDMNKLI D 420 

12 61 TCACAGGC7\AATTGGAATATTGATAGTGAATCAAAGGGTAATGATCATTTACAGGGTGGG 1320 

421 SQANWNIDSES'KGNDHLQGG- 440 

1321 GCATTGTTATATGTGAATGATGACAAAACACCTAACGCGAACTCAGATTACCGTCTGTTA 1380 

441 ALLYVNDDKTPNANSDYRLL 460 

1381 AACCGTACACCAACCAACCAAACCGGCCAAATTACTGATCCAAGTAAACAAGGTGGATAT 14 4 0 

461 NRTPTNQTGQITDPSKQGGY 480 

14 41 GAGATGTTATTAGCTAATGATGTTGATAATTCTAACCCTGTTGTACAAGCTGAGCAATTG 1500 
481 EMLLAN d'vDNSNPVVQAEQL 500 

1501 AACTGGCTTCACTACATGATGAACATTGGTACTATAGCTCAGAACGACCCAACAGCTAAT a 5 60 

501 NWLHYMMNIGT IAQNDPTAN 520 

15 61 TTTGACGGTTATCGTGTTGATGCGGTTGATAACGTTGATGCCGATCTCTTACAAATTGCT 162,0 
521 F DGYRVDAVDNV DADLLQIA 540 

1621 GGTGATTACTTTAAAGCTGCATACGGTACTGGTAAAACTGAGGCAAACGCAAACAATCAT 1 680 " 

541 GDYFKAAYGTGKTEANANNH 560 

1681 ATTTCGATCTTGGAAGATTGGGATAATAATGATTCTGCGTACATTAAAGCCCACGGGAAT 17 40 

'561 IS ILEDWDNNDSAYI KAHGN 580 

- 5; 

174 1 AACCAATTGACAATGGATTTTCCAGCACACTTGGCTTTGAAATACGCCTTGAACATGCCT 18 00 

581 NQLTMDFPAHLALKYALNMP 600 

18 01 CTTGCCGCACAAAGTGGCCTAGAACCGCTAATTAATACAAGTCTTGTTAAGCGTGGGAAA 18 60 

601 LAAQSGLEPLINTSLVKRGK 620 

18 61 GATGCCACAGAAAATGAAGCACAACCAAACTATGCCTTTATCCGTGCCCATGATAGTGAA 1920 

621 DAT. ENEAQPNYAFI RAH QSE 640 

1921 GTGCAGACCGTTATTGCACAAATTATTAAGGATAAAATTAACACAAAATCAGACGGCTTA 198 0 

641 VQTVIAQI IKDKINTKSDGL 660 

1981 ACTGTAACACCAGATGAGATTAAGCAAGCTTTCACTATTTACAACGCCGATGAATTAAAA 204 0 

661 TVTP DEIKQAFTI YNADELK 680 

204 1 GCAGATAAGGAATATACAGCATACAATATTCCTGCTTCTTACGCTGTATTGTTGACAAAC 2100 

681 ADKEYTAYNI PAS YAVLLT N 700 

2101 AAGGATACTGTGCCACGTGTTTATTATGGTGATCTATTTTCTGATGATGGACAGTATATG 2160 

701 KDTVPRVYYGDLFS DDGQYM 720 

2161 TCACAGAAGTCACCATACTATGACGCCATTACGTCACTTTTGAAAAGCCGTATCAAATAT 2220 

721 SQK'S PYYDAITS LLKSRI KY' 740 
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2221 GTTGCTGGTGGTCAAAGTATGAATATGACGTACTTGCATGAGTGCTTTGATCCAGCAAAA 2280 

741 VAGGQSMNMTYLHECFD PAK 760 

2281 AATGAGACAAAGCCACAAGGTGTCTTAACATCAGTACGTTACGGTAAAGGTGCGATGACG 234 0 

761 NETKPQGVLTSVRYGKGAMT 780 

2 341 GCTGACGATTTGGGTAATAGTGACACACGTCAACAAGGTATTGGTTTGGTGATTAATAAT 24 00 

781 ADDLGNSDTRQQGIGLVINN 800 

24 01 AAGCCATTCTTGAATTTAAATGATGATGAACAAATTGTGCTCAATATGGGTGCTGCTCAC 2 4 60 

801 KPFLNLNDDEQIVLNMGAAH 820 

2 4 61 AAAAATCAAGCTTACCGACCACTTATGTTGACAACAAAATCTGGTCTTCAAATTTACGAT 252 0 

821 KNQAYRPLMLTTKSGLQI YD 840 

2521 AAGGATGCCGGAGCGCCAGTTGTTTATACTAACGATGCTGGTCAACTTATTTTTAAGTCA 2580 

841 KDAGAPVVYTNDAGQL I F K S 860 

2581 GATATGGTCT ATGGTGTCAGCAATCCACAGGTATCTGGTTATTTTGCTGCATGGGTACCA 2 64 0 

861 DMVYGVSNPQVSGYFAAWVP 880 

2 641 GTCGGTGCGAGTGATAGTCAAGATGCTAGAACACAAAGCAGCCAGTCAGAAACTAAGGAT 27 00 

881 VGASDSQDARTQSSQSETKD 900 

27 01 GGCGATGTCTATCATTCAAATGCTGCGCTTGATTCTAATGTGATTTATGAAGGCTTCTCG 27 60 

901 GDVYHSNAALDSNVIYEGFS 920 

27 61 AATTTCCAAGCAATGCCTGAAAAGAATGATGACTTCACCAACGTAAAAATTGCTCAAAAT 2 82 0 

921 NFQAMPEKNDDFTNVKIAQN 94 0 

2 821 GC TAAAT T GT T T AAAG AT TT AGGG AT T ACAAGCT T T G AATTAGC ACCG C AAT ATCG T T CA 288 0 

941 AKLFKDLGITSFELAPQYRS 960 

2881 AGTACAGATAATAGTTTTTTGGATTCGGTTATCCAAAACGGCTATGCCTTTACTGATCGA 2 94 0 

961 STDNSFLDSVIQNGYAFTDR 980 

2 94 1 TATGATGTTGGCTATAATACGCCAACAAAATATGGTACAGTTGATCAACTTCTAGATAGT 3000 

981 YDVGYNTPTKYGTVDQLLDS 1000 

3001 CTAAGAGCATTACACGCACAAGGTATTCAGGCTATTAATGACTGGGTACCTGATCAAATT 30 60 

1001 LRALHAQGIQAI NDWVPDQI 1020 

3061 TATAATTTACCTGGCGAACAAATCGTCACCGCAGTTCGTACAAATGGTTCAGGTAAGTAC 312 0 

1021 YNLPGEQIVTAVRTNGSGKY 1040 

3121 GATTATGATTCAGTGATTAATAACACGCTCTATGATTCACGAACAGTTGGGGGCGGCGAA 3180 

1041 DYDSVINNTLYDSRTVGGGE 1060 

3181 TACCAAGAAAAGTTTGGTGGCCTGTTCTTAGACCAGTTGAAAAAAGATTATCCTAGCTTG 324 0 

1061 YQEKFGGLFLDQLKKDYPSL 1080 

324 1 TTTGAAACTAAGCAGATATCAACGAATCAGCCGATGAATCCGGATGTTAAAATTAAAGAA 3300 

1081 FETKQISTNQPMNPDVKIKE 1100 

3301 TGGTCTGCAAAGTACTTTAATGGTTCAAACATTCAAGGTCGTGGCGCTTGGTATGTACTT 3360 

1101 WSAKYFNGSNIQGRGAWYVL 1120 

33 61 AAAGACTGGGCAACAAATCAATATTTCAATGTGTCTAGTGATAATGGATTCTTGCCTAAA 34 20 

1121 KDWATNQYFNVS SDNGFLPK 1140 
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34 21 . CAGTTACTGGGTGAAAAAACAAGCACCGGCTTTATAACAGAAAATGGTAAGACTTCTTTC 34 80 

1141 Q L • L G E K-T S T G F : I T E N G K T S F 1160 

3 4 81 TACTCAACAAGTGGTTATCAAGCTAAAGATACCTTTATTCAAGATGGAACAAATTGGTAT 354 0 

1161 Y S.T S G Y Q A K D T F I Q D G T - N W Y ■ 1180 

3541 TACTTTGATAATGCAGGCTATATGTTGACAGGTAAACAAAATATCCACGATAAAAATTAT . 3600 

1181 Y F D N A G Y M L T G K Q N I H D K N Y 1200 

3 601 TATTTCTTACCTAATGGTGTGGAACTTCAAGATGCTTACCTTTTTGATGGTAATCAAGAA 3 660 

1201 Y F L P ■ N G V E L Q D A Y L F D G N Q E 1220 

3 661 TTTTACTATAATAAAGCTGGGGAACAAGTTATGAACCAGTATTATCAAGATAGTCAAAAT 372 0 

1221 F Y .Y N K A G E QVMN Q Y Y Q D S Q N 1240 

37 21 CAATGGCATTATTTCTTTGAAAATGGTCGCATGGCAATTGGCCTGACAGAAGTTC.CGAAC • 37 8 0 

1241 Q W-H-Y F F E N G R M A I .G L T E V P N 12 60 

37 81 GCTG AT G GC ACCC ATG T T AC ACAA TAT TTTGATGCTAATGGTGTCCAAATTAAAGGC AC A 38 4 0 

•1261 AD G T HVTQYFDA NG.VQ I KGT 1280 

■3841 GCTATAAAAGATCAGAATAATCAATTACGCTATTTTGATGAGGCCACAGGTAATATGGTG * 3900 

■ 1281 A I K D G.N N Q L R Y F D E A T G N M V 1300 

3901- ; _ GTTAATTCATGGGGACAGTTAGCAGATAAGTCTTGGCTTTACCTTAATGCACAAGGCGTT . . 3960 

1301 * V N S W G Q L A D K S W L Y L N A . Q -G , V 1320 

3 9 61 GCTGTGACTGGTAACCAAAAAATTGATGGTGAAGAGTACTACTTCAATGCTGATGGTAAG 4^20 
1321 A V .T G.N Q K I D G E E Y Y F N A D G K f%40 

,4021- . C AAG T T AAAGGC AATG CAATC ATCGATAATAATGG TGAT CAACGT T AT TAT G ATGG TGAT . 4jDft0 

,134 1 .Q V -K G N A I I D N N G D Q R . *Y * Y D % G . D ■ 1360 

4 081 * AAGGGTGTCATGGTAGTTAATTCATGGGGTGAGTTGCCAGATGGCTCATGGTTATATTTG ■. MJO 
1361 K G V M" ; . V V N t S W G E L P D G S W <L Y .L , 1380 

4141 • AATGACAAAGGTATTGCTGTAACAGGCCGTCAAGTCATTAATAATCAAGTTAATTTCTTT 4:2.00 

1381 N..D K G I A V T G R Q V I N N Q V N F F . 1400 

4201 - GGTAATGATGGTAAGCAAATCAAAGATGCCTTTAAATTATTATCCGATGGTTCATGGGTG ' 4 2 60 

1401 G N D G K Q I K D *A F K L L S D G S W V ^ 1420 

4 2 61 TATTTGGATGATAAGGGCCTGATAACAACTGGAGCCAAAGTTATCAAT.GGTCTAAATATG * 4 320 

1421 Y L D D K G L -I T . T G A K V I N G L ■ .N M • 1440 

4 321 TT-TTTTGATAAAGACGGTCATCAAATCAAAGGTGATGCCAGCACGGATGCCAATGGTAAG 4 380 

1441 F F D K D G H Q I K G DA S T D A ~N G K 1460 

4 381 , CGCCATTATTATGACAAAAATGATGGTCATCTTGTCACAAATTCATGGGGTGAGTTGCCA ' . 4 440 

1461 R H Y YDKN DGHLV TNSW GELP L480 

44 41 . GATGGTTCATGGTTATATCTAGAAGAACAAGGTGATGCTGT.TACTGGTCAACGTGT.GATT - 4 500 

'1481 b G S -W L Y L E E Q G D A V T G Q R V I • 1500 

4501 GATGGCAAGACACGCTATTTTGATGAAGATGGCAAACAAATTAAAAATAGCCTAAAAACG '-4560 

1501 D G K.T R Y F D E D G K Q I K N'.S L K T . 1520 

- 4 561 , CTGGCCAATGGCG AT AAGATT.TATCTTG ATGG TGATGGGG.TTGCTGCAACAGGCTT ACAA " '4 620 

-1521 L * A N G D K I -Y L DG DG VAA T G L Q I 1540 
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4 621 CATGTGGGCGATAAAATCATGTATTTTGATGAAGATGGCAAACAAGTTGTTGGCAAGTTT 4 68 0 

1541 HVGDKIMYFDEDGKQVVGKF 1560 

4 681 GTATCAGCAAAAGATGGTTCATGGTATTACTTAAATCAGGATGGTGTTGCCGCGGTTGGT 4 7 4 0 

1561 VSAKDGSWYYLNQDGVAAVG 1580 

474 1 CCAAGCAGCATTAATGGACAATCACTTTACTTTGATCAAGATGGTAAACAAGTTAAATAT 4 8 00 

1581 PS S INGQSLYFDQDGKQVKY 1600 

4 801 AATGAAGTTCGTAATAGTGATGGAACAACCAACTATTACACAGGATTAACGGGTGAAAAG 4 8 60 

1601- NEVRNSDGTTNYYTGLTGEK 1620 

4 8 61 TTAACGCAAGACTTCGGTGAACTACCAGATGGTTCATGGATTTATCTTGATGCGCAAGGT 4 92 0 

1621 LTQDFGELPDGSWI YLDAQG 1640 

4 921 CATACAGTAACTGGTGCACAAATCATTAACGGTCAAAATCTTTACTTTAAGGCTGACGGC 4 980 

1641 HTVTGAQI I NGQNLYFKADG 1660 

4 981 CAGCAAGTTAAAGGTCATGCTTATACTGACCAATTAGGTCATATGCGTTTTTATGATCCT 504 0 
1661 QQVKGHAYT DQLGHMRFYDP 1680 

5041 GATTCAGGTGATATGTTGAGTAATCGCTTTGAACAAATCACACCTGGTGTATGGGCTTAC 5100 

1681 DSGDMLSNRFEQITPGVWAY 1700 

5101 TTTGGTGCTGATGGTGTGGCCATAACTGGACAACATGACATAAATGGTCAGAAGCTATTC 5160 

1701 FGADGVAITGQHDINGQKLF 1720 

5161 T T TG AT G AGAC AGG AT ATC AAGT T AAAGG T TCGCAACGT ACAAT AG ATGG TACG T TAT AC 522 0 

1721 FDETGYQVKGSQRTI DGTLY 1740 

5221 AGCTTCGATTCTCAAACTGGTAACCAAAAACGCGTACAGACAACATTGTTGCCACAAGCA 5280 

1741 SFDSQTGNQKRVQTTLLPQA 1760 

5281 GGTCACTATATCACGAAAAATGGTAACGATTGGCAGTATGATACCAATGGTGAACTAGCG 5 34 0 

1761 GHYITKNGNDWQYDTNGELA 1780 

534 1 AAGGGTCTGCGTCAAGATAGCAATGGTAAGTTGCGTTACTTTGATTTGACAACCGGCATA 5 4 00 

1781 KGLRQDSNGKLRYFDLTTGI 1800 

5401 CAAGCGAAAGGCCAATTTGTTACAATTGGCCAAGAAACTTATTACTTTAGTAAAGATCAC - 54 60 

1801 QAKGQFVT IGQETYYFSKDH 1820 

54 61 GGGGATGCGCAGTTATTGCCAATGGTCACTGAAGGGCATTACGGTACAATAACACTCAAG 5 5 20 

1821 GDAQLL PMVTEGHYGT I TLK 1840 

5521 CAAGGTCAAGACACCAAAACAGCCTGGGTTTACCGTGATCAAAATAATACTATTTTGAAG 55 80 

1841 QGQDTKTAWVYRDQ'NNTILK 1860 

5581 GGATTGCAAAATATCAATGGCACGTTGCAATTCTTTGATCCATATACAGGTGAACAACTT 5 64 0 

1861 GLQNINGTLQFFDPYTGEQL 1880 

5 641 AAGGGTGGCGTAGCAAAGTATGACGACAAGCTCTTTTACTTTGAATCAGGTAAAGGTAAT 57 00 
1881 KG GV AK Y D D KL FY F E S G KG N 1900 

5701 CTTGTTAGCACCGTAGCAGGTGACTATCAGGATGGTCATTATATTTCCCAAGATGGCCAA 57 60 

1901 LVSTVAGDYQDGHYISQDGQ 1920 

5761 ACACGTTACGCAGATAAGCAAAATCAGCTTGTAAAGGGACTTGTTACTGTTAATGGGGCA 5820 

1921 TRYADKQNQLVKGLVTVNGA 1940 
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5821 T T ACAAT AC T T T G AT AAC'GCT AC TG GT AACC AAAT AAAAAAT C AAC AAGT T AT T G T TG AT 5880 

1941 L Q Y F D N ' A T G N Q I K N Q Q - V " I V D 1960 

58 81 GGCAAGACGTACTATTTTGACGATAAAGGCAATGGTGAATACTTATTCACTAATACATTA '5940 

1961 GKTYYFDDKGNGEYLFT'NTL 1980 

5 941 ' GATATGTCTACTAATGCTTTTTCTACCAAAAATGTTGCATTCAATCATGACAGTAGCAGT 6000 

1981 DMSTNAFSTKNVAFNHDSSS ■ 2000 

6001 TTCGACCATACTGTTGATGGCTTCTTGACGGCAGATACTTGGTATCGACCAAAGTCAATT 6060 

2001 FDHTVD G FLTADTWYRPKS I 2020 

6061 • TTGGCTAACGGGACAACTTGGCGTGATTCGACTGATAAGGATATGCGACCAT"TAATCACT 6120 

2021 L.ANGTTWRDSTDKDMRPLIT 2040 

6121 ' GTTTGGTGGCCAAATAAGAATGTTCAAGTCAACTACCTCAACTTCATGAAAGCAAATGGC- ■ 618 0 

2041 V W W P N K N V Q V N *Y L N F M KAN G 2060 

6181 : TTGTTGACAACAGCAGCACAATACACACTACATTCAGATCAATATGATTTGAACCAAGCT 624 0 

2061 LLTTAAQYTLHS DQ Y DLNQA 2080 

* 624 1 ' GCACAAGATGTTCAAGTGGCCATTGAAAGGCGCATTGCGTCAGAGCATGGCACAGACTGG 6300 

2081 A Q DVQ VAI E RR IAS E H G T DW 2100 

6301 "TTACAGAAATTGTTGTTTGAATCACAAAATAATAACCCATCATTTGTGAAGCAACAATTC • -6360 

2101 *L Q K L L F E S Q N 'N N P S F V K Q Q F -2120 

6361 ATTTGGAACAAGGATTCTGAATATCATGGTGGTGGTGATGCTTGGTTCCAAGGTGGTTAT >S'4 2 0 

2121 I W N K- D S . E Y H G G G D A W F Q G G Y - 21 4 0 

6421 - CTGAAGTATGGCAATAACCCACTCACACCAACAACTAATTCTGATTATCGTCAACCTGGT %480 

'2141 LKYG NNPLTPTTNSDY R QPG 2160 

64 81 .. AATGCATTTGATTTCTTGCTAGCCAACGACGTGGATAATTCTAATCCT GTTGTGCAAGCT : 6%4 0 

2161 N A F D F L L AN D V DN S N P V V Q A -2180 

6541 GAAAACTTAAACTGGTTACATTACTTAATGAACTTTGGCACCATCACTGCGGGTCAAGAT "g^OO 

2181 ENLNWLHYLM 'NFGTI TAGQD 2200 

6601 GACGCTAATTTTGATAGTATTCGTATTGACGCTGTCGACTTTATTCATAATGATACAATC ■ * 6660 

2201 DAN FDS I RI DAVDFI HN DT I 2220 

6661 * CAACGTACTTATGATTATCTTCGTGATGCTTATCAAGTGCAACAAAGTGAAGCCAAAGCA 6720 

2221 QRT Y D YL R DAYQVQQS'EA KA 2240 

6721 AACCAGCACATTTCATTGGTTGAAGCTGGCTTAGACGCAGGTACATCAACGATTCATAAT 6780 

2241 NQHISLVEAGLDAGTSTIHN 2260 

67 81 •GATGCGTTAATTGAGTCAAAC'CTCCGTGAAGCAGCGACATTGTCGTTAACAAATGAACCT 68 4 0 

2261 DALI ESNLREAATLSLTN EP - 2280 

6841 . ..GGTAAAAATAT^ACCATTGACGAATATGCTACAAGACGTTGACGGCGGTACGCTTATCACC 6900 

2281 GKNKPLTNMLQDVDGGTL I T ' 2300 

6901 . GACCATACGCAGAATAGTACAGAAAATCAGGCGACACCAAACTATTCAATTATTCACGCG * 6960 

2301 DHTQNSTENQATPNYS I I HA J 2320 

6961 '..XACGATAAAGGTGTGCAAGAAAAAGTAGGTGCAGCCATTACTGATGCTACTGGT'gCTGAT ,7020 

2321 HDKGVQEKVGAAITDATGAD ' 2340 
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7 021 TGGACGAACTTTACAGATGAACAGTTAAAAGCCGGATTAGAGCTATTCTATAAGGATCAG 7 080 

2341 WTNFTDEQLKAGLELFYKDQ 2360 

7 081 CGCGCAACAAACAAAAAGTATAATAGTTATAACATACCAAGTATTTATGCCCTGATGTTG 714 0 

2361 RATNKKYNSYNI PS I YALML 2380 

7141 ACAAACAAAGATACTGTTCCTCGTATGTATTATGGGGATATGTATCAAGATGACGGACAG 7200 

2381 TNKDTVPRMYYGDMYQDDGQ 2400 

7 201 TATATGGCAAACAAGAGTATCTACTATGATGCCTTAGTGTCATTAATGACGGCTCGTAAA 7 2 60 

2401 YMANKS IYYDALVSLMTARK 2420 

7 2 61 AGCTATGTCAGCGGTGGTCAAACTATGAGTGTTGACAATCATGGTTTGTTGAAGAGTGTC 7 32 0 

2421 SYVSGGQTMSVDNHGLLKSV 2440 

7 321 CGTTTTGGAAAAGATGCGATGACAGCTAATGATTTAGGTACATCAGCTACGCGTACTGAG 7 380 

2441 RFGKDAMTANDLGTSATRTE 2460 

7 381 GGTCTTGGTGTCATTATTGGTAATGATCCAAAGTTGCAACTTAATGATTCGGATAAAGTG 7 4 4 0 

2461 GLGVI IGNDPKLQLNDSDKV 2480 

7441 ACACTGGATATGGGTGCAGCACATAAAAATCAAAAGTATCGCGCAGTTATCTTAACAACA 7500 

2481 TLDMGAAHKNQKYRAVILTT 2500 

7 501 CGTGATGGTTTGGCAACCTTTAATTCAGATCAAGCACCAACAGCTTGGACAAACGATCAA 7 5 60 

2501 RDGLATFNSDQAPTAWTNDQ 2520 

7 5 61 GGAACGTTAACATTCTCAAATCAAGAGATTAACGGGCAAGACAATACACAAATTCGTGGT 7 62 0 

2521 GTLTFSNQEINGQDNTQIRG 2540 

7 621 GTTGCTAATCCGCAAGTTTCTGGTTATCTAGCTGTTTGGGTGCCTGTGGGTGCATCAGAC 7 68 0- 

2541 VANPQVSGYLAVWVPVGASD 2560 

7 681 AATCAAGATGCCCGTACAGCAGCAACGACAACAGAAAATCATGATGGTAAAGTATTACAC 77 4 0 . 

2561 NQDARTAATTTENH DGKVLH 2580 

77 41 TCGAATGCGGCATTAGATTCTAACCTTATTTATGAAGGTTTCTCTAACTTCCAACCTAAG 7 8 00 

2581 SNAALDSNLIYEGFSNFQPK 2600 

7 801 GC AAC AAC G CAT GAT G AAC T TAC G AAC GT T G TAAT T G CT AAAAATGC CG ATG T C T TC AAT 78 60 

2601 ATTHDELTNVVIAKNADVFN 2620 

7 861 AATTGGGGTATTACGAGTTTTGAAATGGCACCACAGTACCGTTCAAGTGGGGACCATACA 7 920 

2621 NWGIT SFEMAPQYRSSGDHT 2640 

7 921 TTCTTGGATTCAACGATTGATAATGGTTATGCCTTCACTGATCGCTATGACTTAGGTTTC 7 980 

2641 FLDST I DNGYAFTDRYDLGF 2660 

7 981 AATACACCAACAAAGTATGGCACTGATGGTGATTTGCGTGCAACGATTCAAGCGCTACAT 804 0 

2661 NTPTKYGTDGDLRATIQALH 2680 

80 41 CATGCTAATATGCAAGTTATGGCTGACGTTGTTGATAACCAGGTCTATAACTTACCTGGT 8100 

2681 HANMQVMADVV'bNQVYNLPG 2700 

8101 AAAGAAGTTGTTTCAGCAACACGAGCAGGTGTTTATGGTAATGACGACGCCACGGGCTTT 8160 

27 01 KEVVSATRAGVYGNDDATGF 2720 

8161 GGAACGCAACTCTATGTGACTAACTCCGTTGGTGGTGGTCAATACCAAGAGAAATATGCT 8220 

2721 GTQLYVTNSVGGGQYQEKYA 2740 
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82 21 GGACAATACTTAGAAGCTGTGAAAGCAAAGTATCCAGACCTCTTTGAGGGTAAGGCCTAT 8 280 

2741 G Q Y L E A L K A K Y P D L F E G KAY 2760 

8281 GATTATTGGTATAAGAACTATGCAAATGATGGGTCAAATCCTTACTATACATTGTCACAC ■ 8 34 0 

2761 DYWYKNYAN DG SNPYYTL SH 2780 

8 341 GGTGACCGTGAATCTATCCCAGCAGATGTTGCTATTAAGCAATGGTCAGCTAAGTATATG 8 4 00 

2781 G D R E S I PA DVAI K. QWSAKYM ■ 2800 

8 4 01. AACGGCACGAACGTTTTGGGCAATGGTATGGGTTATGTATTGAAGGATTGGCATAATGGT 8 4 60 

2801 NG TNVLGNGM GYVLKDW.HNG 2820 

84 61 CAATATTTCAAGCTTGATGGTGATAAATCAACATTACCTCAAATTT . 8506 

2821 Q Y • F K L ■ D G D K S T L P Q I * 2835 
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11 

Sequence* dn g4n^ dte^5 

1 AATAATCTGT CTCCA^TGCT ' TTCAAAATAA TAATAGTTAA TTATTATGAT 

51 GGAACAATCA AT ATT T T ATT ; TATATTCACT A CT&AA TATC CTTTTTTGCA 

101 TAAAT CTCTA GAGCCGATTT : TTTGGGTTAT ACAATGAATT GGTAAAGGTT 

151 AATCATTTTT ACAAAACCAT ; GGTGGTTTTT TATTTTTTCT AAAATTACCG 

^ to 

2 01 AACTAGAGGA AGAGAAAAGS; ASCAATAGTT GTATGAGAGA CAT GAGG GTA 

251 ATTTGTGACC GTAAAAAATT I GTACAAATCG GGCAAAGTAC TAGTAACAGC 

301 CGGTATTTTT GCTTTGATGA TGTTTGGCGT CACAACTGCT AGTGTTAGTG 

351 CAAATACGAT TGCAGTTGAC ■ AC GAAT CATA GCCGTACTTC AGGACAGATT 

4 01 AATAAGAGTG CCGTTGATAA GGTTAATGAT GACAAGACTA CTTTAGGAGC 

451 GGCAAAAGTA GTGGCAGTAG CCACAACGCC AGCGACACCG GTAGCAGATA 

501 AAACAGTAAG TGCACCCGCA GCAGATAAGG CAGTAOATAC AACGTCATCA 

551 ACGACACCTG CAACGGATAA GGCAGTAGAT ACAACGCCAA CGACACCTGC 

601 AGCAGATAAG GCAGTAGATA CAACGCCAAC GACACCTGCA GCAGATAAGG 

651 CAGTAGATAC AACGCCAACG ACACCTGCAG CAAATAAAGC AGTAGATACA 

701 ACGCCAGCGA CCGCTGCAAC . AGATAAGGCG GTAGCCACGC CAGCCACACC 

751 TGCAGCAGAT AAGCTAGCAA s ATACGACGCC TGCAACGGAC AAGGCAGTAG 

801 CCACAACGCC AGCGACGCCG j GTAGCAAATA AAGCAGCAGA CACGAGTAGT 

851 ATT CAT GAT C AACCATTAGA 1 TACAAATGTG CCAACTGATA AATCAGCAAA 

901 CCTCGTCTCG ACAACACAAA AAAGTACGGA TAATCAACAA GTTAAGTCTA 

951 CAGAAACATC TCATCTTCAA GAAATCAACG GTAAAACCTA TTTTCTTGAC 

1001 GACAATGGTC AAGTTAAAAA GAACTTCACC GCTATTATTG ACGGTAAAGT 

1051 TCTATACTTT GATAAAACAT CCGGCGAATT GACCGCAAAT GCACCGCAAG 

1101 TTACTAAGGG ATTAGTAAAT ATTGATAATG CACATAACGC GGCTCATGAT 

1151 CTCACAGCTG ATAACTTCAC 'AAATGTCGAT GGTTACTTAA CAGCTAACAG 

1201 TTGGTATCGT CCTAAGGACA TCTTAAAAAA CGGAACGACC TGGACACCAA 

1251 CAACAGCAGA AGATTTTCGA , CCATTGCT CA TGTCTTGGTG GCCGGATAAG 

1301 AATACGCAGG TAGCTTATCT ACAATATATG CAATCAGTTG GTATGCTACC 

1351 TGACGATGTT AAACTATCAA ATGATt^TAA TATGAGCACA TTGACTGATG 

TMi~" CVt&T&G& T^ TGTATCTGGA" 
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3001 


AGCAATGCCT GAAAAQAATG lATGACTTCAC 


CAACGTAAAA 


ATTGCTCAAA 


3051 


ATGCTAAATT GTTTAAAGAT iTTAGGGATTA 


CAAGCTTTGA 


ATTAGCACCG 


3101 


CAATATCGtT CAAGTACAGA TAATAGTTTT 


TTGGATTCGG 


TTATCCAAAA 


3151 


CGGCTATGCC TTTACTGATC \ GAT AT GAT GT 


TGGCTATAAT 


ACGCCAACAA 


3201 


AATATGGTAC AGTTGATCAA CTTCTAGATA 


GTCTAAGAGC 


ATTACACGCA 


3251 


CAAGGTATTC AGGCTATTAA TGACTGGGTA CCTGATCAAA 


TTTATAATTT 


3301 


ACCTGGCGAA CAAATCGTCA CCGCAGTTCG 


TACAAATGGT 


T CAG GTAAGT 




ACGATTATGA TTGAGTGATT AATAACACGC 


TCTATGATTC 


ACGAACAGTT 




GGGGGCGGCG AATACCAAGA AAAGTTTGGT 


GGCCTGTTCT 




•5 *± J. 


GAAAAAAGAT TATCCTAGCT TGTTTGAAAC 


TAAGCAGATA 






AGCCGATGAA TCCGGATGTT AAAATTAAAG 


AATGGTCTGC 


AAAGTAfTTT 
nrvnviriV/ ill 




AATGGTTCAA ACATTCAAGG TCGTGGCGCT 


TGGTATGTAC 




O OU X 


GGCAACAAAT CAATATTTCA AT GTGTCTAG 


TGATAATGGA 


TTCTTGCCTA 


■3 03 J. 


AACAGT TACT GGGTGAAAAA ACAAGCACCG 


GCTTTATAAC 


AGAAAATGGT 




AAGACTTCTT TCTACTCAAC AAGTGGTTAT 


CAAGCTAAAG 


ATACCTTTAT 




. TCAAGATGGA ACAAATTGGT ATTACTTTGA 


TAATGCAGGC 


TATAT GTTGA 


J a U J. 


CAGGTAAACA AAATATCCAC GATAAAAATT 


ATTATTTCTT 


ACCTAATGGT 




GTGGAACTTC AAGATGCTTA CCTTTTTGAT 


GGTAATCAAG AATTTTACTA 




TAATAAAGCT GGGGAACAAG TTATGAACCA 


GTATTATCAA 


GATAGTCAAA 


3951 


ATCAATGGCA. TTATTTCTTT GAAAATGGTC 


GCATGGCAAT 


TGGCCTGACA 




GAAGTTCCGA ACGCTGATGG CACCCATGTT 


ACACAATATT 


TTGATGCTAA 


4051 


TGGTGTCCAA ATTAAAGGCA CAGCTATAAA AGATCAGAAT 


AAT CAATT AC 


4101 


GCTATTTTGA TGAGGCCACA GGTAATATGG 


TGGTTAATTC 


ATGGGGACAG 


4151 


TTAGCAGATA AGTCTTGGCT TTACCTTAAT 


GCACAAGGCG 


TTGCTGTGAC 


4201 


TGCTAACCAA AAAATTGATG GTGAAGAGTA 


CTACTTCAAT 


GCTGATGGTA 


4251 


AGCAAGTTAA AGGCAATGCA AT CAT C GAT A ATAATGGTGA TCAACGTTAT 


4301 


TATGATGGTG ATAAGGGTGT CATGGTAGTT 


AATTCATGGG 


GTGAGTTGCC 


4351 


AGATGGCTCA TGGTTATOTT TGAATGACAA AG GT ATT GCT 


GTAACAGGCC 


4401 


GTCAAGTCAT TAATAATCAA .CTTAATTTCT. TTGGTAATGA TGGTAAGCAA 


4451 


ATGAAAGA^G GGTTTAAATT. A3*TAICCGAT 


GGTTCATGGG 


TGTATTTGGA 
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4501 TGATAAGGGC CTGATAACAA ;CTGGAGCCAA AGTTATCAAT GOTCTAAATA 
4551 TGTTTTTTGA TAAAGACGGT ICATCAAATCA AAGGTGATGC CAGCACGGAT 
4601 GCCAATGGTA AGCGCCAOTA -TTATGACAAA AATGATGGTC ATCTTGTCAC 
4651 AAATTCATGG GGTGAGTTGC CAGATGGTTC ATGGTTATAT CTAGAAGAAC 
4701 AAGGTGATGC TGTTACTGGT CAACGTGTGA TTGATGGCAA GACACGCTAT 
4751 TTTGATGAAG ATGGCAAACA AATTAAAAAT AGCCTAAAAA CGCTGGCCAA 
4801 TGGCGATAAG ATTTATCTTG ATGGTGATGG GGTTGCTGCA ACAGGCTTAC 
4 851 AACATGTGGG CGATAAAATC ATGTATTTTG ATGAAGATGG CAAACAAGTT 
4901 GTTGGCAAGT TTGTATCAGC AAAAGATGGT TCATGGTATT ACTTAAATCA 
4 951 GGATGGTGTT GCCGCGGTTG GTCCAAGCAG CATTAATGGA CAATCACTTT 
5001 ACTTTGATCA AGATGGTAAA CAAGTTAAAT ATAATGAAGT TCGTAATAGT 
5051 GATGGAACAA CCAACTATTA CACAGGATTA ACGGGTGAAA AGTTAACGCA 
5101 AGACTTCGGT GAACTACCAG ATGGTTCATG GATTTATCTT GATGCGCAAG 
5151 GTCATACAGT AACTGGTGCA CAAATCATTA ACGGTCAAAA TCTTTACTTT 
5201 AAGGCTGACG GCCAGCAAGT TAAAGGTCAT GCTTATACTG ACCAATTAGG 
5251 TCATATGCGT TTTTATGATC CTGATTCAGG TGATATGTTG AGTAATCGCT 
5301 TTGAACAAAT CACACCTGGT GTATGGGCTT ACTTTGGTGC TGATGGTGTG 
5351 GCCATAACTG GACAACATGA . CATAAATGGT CAGAAGCTAT TCTTTGATGA 
5401 GACAGGATAT CAAGTTAAAG GTTCGCAACG TACAATAGAT GGTACGTTAT 
5451 ACAGCTTCGA TTCTCAAACT GGTAACCAAA AACGCGTACA GACAACATTG 
5501 TTGCCACAAG CAGGTCACTA TAT CACGAAA AATGGTAACG ATTGGCAGTA 
5551 TGATACCAAT GGTGAACTAG CGAAGGGTCT GCGTCAAGAT AGCAATGGTA 
5601 AGTTGCGTTA CTTTGATTTG ACAACCGGCA TACAAGCGAA. AGGCCAATTT 
5651 GTTACAATTG GCCAAGAAAC T TATTACTTT AGTAAAGATC ACGGGGATGC 
5701 GCAGTTATTG CCAATGGTCA CTGAAGGGCA TTACGGTACA ATAACACTCA 
5751 AGCAAGGTCA AGACACCAAA ACAGCCTGGG TTTACCGTGA TCAAAATAAT 
5801 ACTAO-TTTGA AGGGATTGCA AAATATCAAT GGCACGTTGC AATTCTTTGA 
S851 TCCATATACA GGTGAACAAC TTAAGGGTGG CGTAGCAAAG TATGACGACA 
5901 AGCTCTTTTA CTTTGAATCA GGTAAAGGTA ATCTTGTTAG CACCGTAGCA 
5551 GCTGACTATC AGGATGGTCA TTATATTTCC CAAGATGGCC AAACACGTTA 
6001 CGCAGATAAG CAAAATCAGC TTGTAAAGGG ACTTGTTACT GTTAATGGGG 
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6051 CATTACAATA CTTTGATAAC GCTACTGGTA ACCAAATAAA AAATCAACAA 

6101 GTTATTCTTG ATGGCAAGAC CTACTATTTT GACGATAAAG GCAATGGTGA 

6151 ATACTTATTC ACTAATACAT TAGATATGTC TACTAATGCT TTTTCTACCA 

6201 AAAATGTTGC ATTCAATCAT GACAGTAGCA GTTTCGACCA TACTGTTGAT 

6251 GGCTTCTTGA CGGCAGATAC TTGGTATCGA CCAAAGTCAA TTTTGGCTAA 

6301 CGGGACAACT TGGCGTGATT CGACTGATAA GGATATGCGA CCATTAATCA 

6351 CTGTTTGGTG GCCAAATAAG ^lATGTTCAAG' TCAACTACCT CAACTTCATG 

6401 AAAGCAAATG GCTTGTTGAC AACAGCAGCA CAATACACAC TAGATTCAGA 

6451 TCAATATGAT TTGAACCAAG CTGGACAAGA TGTTCAAGTG GCCATTGAAA 

.6501 GGCGCATTGC GTCAGAGCAT GGCACAGACT GGTTACAGAA ATTGTTGTTT 

6551 GAATCACAAA ATAATAACCC ATCATTTGTG AAGCAACAAT TCATTTGGAA 

6601 CAAGGATT CT GAATATCATG GTGGTGGTGA TGCTTGGTTC CAAGGTGGTT 

6651 ATCTGAAGTA TGGGAATAAC CCACTCAGAC CAACAACTAA TTCTGATTAT ^ 

6701 CGTGAACCTG GTAATGCATT TGATTTCTTG CTAGCCAACG ACGTGGATAA^-) 

•6751 TTCTAATCCT GTTGTGCAAG CTGAAAACTT AAACTGGTTA CATTACTTAA 

6801 TGAACTTTGG CACCATCACT GCGGGTCAAG ATGACGCTAA TTTTGATAGT ' 

6851 ATTCGTATTG ACGCTGTCGA CTTTATTCAT AATGATACAA TCCAACGTAC^ * 

6901 TTATGATTAT CTTCGTGATG CTTATCAAGT GCAACAAAGT GAAGCCAAAG > r 

6951 CAAACCAGCA CATTTCATTG GTTGAAGCTG GCTTAGACGC AGGTACATCA 

7001 ACGATTCATA ATGATGCGTT AATTGAGTCA AACCTCCGTG AAGCAGCGAC 

7051 ATTGTCGTTA ACAAATGAAC CTGGTAAAAA TAAACCATTG AC GAATATGC 

7101 TACAAGACGT TGACGGCGGT ACGCTTATCA CCGACCATAC GCAGAATAGT 

7151 ACAGAAAATC AGGCGACACC AAACTATTCA ATTATTCACG CGCACGATAA 

7201 AGGTGTGCAA GAAAAAGTAG GTGCAGCCAT TACTGATGCT ACTGGTGCTG 

7251 ATTGGACGAA CTTTACAGAT GAACAGTTAA AAGCCGGATT AGAGCTATTC 

7301 TATAAGGATC AGCGCGCAAC AAACAAAAAG TATAATAGTT AXAACATACC 

7351 AAGTATTTAT GCCCTGATGT ITGACAAACAA AGATACTGTT CCTCGTATGT 

7401 ATTATGGGGA TATGTAT CAA iGATGACGGAC AGTATATGGC AAACAAGAGT 

7451 ATCTACTATG ATGCCTTAGT jGTCATTAATG ACGGCTCGTA AAAGCTATGT 

7501 CAGCGGTGGT CAAACTATGA GTGTTGACAA TCATGGTTTG TTGARGAGTG 
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7551 TCCGTTTTGG AAAAGATGCG ATGACAGCTA ATGATTTAGG TACATCAGCT 
7601 ACGCGTACTG ACGGTCTTGG TGTCATTATT GGTAATGATC CAAAGTTGCA 
7651 ACTTAATGAT TCGGATAAAG TGACACTGGA TATGGGTGCA GCACATAAAA 
7701 ATCAAAAGTA TCGCGCAGTT ATCTTAACAA CACGTGATGG TTTGGCAACC 
7751 TTTAATTCAG ATCAAGCACC AACAGCTTGG ACAAACGATC AAGGAACGTT 
7801 AACATTCTCA AATCAAGAGA TTAACGGGCA AGACAATACA CAAATTCGTG 
7851 GTGTTGCTAA TCCGCAAGTT TCTGGTTATC TAGCTGTTTG GGTGCCTGTG 

7 901 GGTGCATCAG ACAATCAAGA TGCCCGTACA GCAGCAACGA CAACAGAAAA 
7951 TCATGATGGT AAAGTATTAC ACTCGAATGC GGCATTAGAT TCTAACCTTA 
6 001 TTTATGAAGG TTTCTCTAAC TTCCAACCTA AGGCAACAAC GCATGATGAA 

8 051 CTTACGAACG TTGTAATTGC TAAAAATGCC GATGTCTTCA ATAATT GGG G 
8101 TATTACGAGT TTTGAAATGG CACCACAGTA CCGTTCAAGT GGGGACCATA 
8151 CATTCTTGGA TTCAACGATT GATAATGGTT ATGCCTTCAC TGATCGCTAT 
82 01 GACTTAGGTT TCAATACACC AACAAAGTAT GGCACTGATG GTGATTTGCG 
8251 TGCAA.CGATT CAAGCGCTAC ATCATGCTAA TATGCAAGT T ATGGCTGACG 
8301 TTGTTGATAA CCAGGTCTAT AACTTACCTG GTAAAGAAGT TGTTTCAGCA 
B351 ACACGAGCAG GTGTTTATGG TAATGACGAC GCCACGGGCT TTGGAACGCA 
8 4 01 ACTCTATGTG ACTAACTCCG TTGGTGGTGG TCAATACCAA GAGAAATATG 
8451 CTGGACAATA CTTAGAAGCT CTGAAAGCAA AGTATCCAGA CCTCTTTGAG 
8501 GGTAAGGCCT ATGATTATTG GTATAAGAAC TATGCAAATG ATGGGTCAAA 
B 551 TCCTTACTAT ACATTGTCAC ACGGTGACCG TGAATCTATC CCAGCAGATG 
8601 TTGCTATTAA GCAATGGTCA GCTAAGTATA TGAACGGCAC GAACGTTTTG 
8651 GGCAATGGTA TGGGTTATGT ATTGAAGGAT TGGCATAATG GTCAATAtTT 
8701 CAAGCTTGAT GGTGATAAAT CAACATTACC TCAAATTTAA TTTATTTTGA 
8751 TAGGGAACGA TTATCTTATC AAATTGTAGT GACAAAAGTC GCAGATATTG 
8801 AATCCAATAT CTGCGACTTT TCGTCTGTAA AGCTATGCTA TAATAACGTT 
8851 ATGACAAAAG AAAATTATTT TAAAGTT GGC ACAATTGTCA ACACCCACGG 
8901 TATTCGTGGC GAAGTGAAGA TTATGGATAT C 



11/5 



regue le 23/10/01 



LISTE DE SEQUENCES 

<110> Centre National de la Recherche Scientifique 
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DEXTRANE-SACC HARAS E CATALYSANT LA SYNTHESE DE DEXTRANE 
PORTANT DES RAMIFICATIONS DE TYPE ALPHA-1,2 OSIDIQUES 

<130> B4787 (INPI) CNRS/INSA TOULOUSE 

<140> 0103631. . 
<141> 2001-03-16 

<1.60> 17 

<170> Patentln Ver . 2.1 
<210> 1 

<211> 855 • , . 

<212> PRT 

<213> Acides amines (domaine catalytique n° ,2) ; 

<400> 1 1 . 

Asp Met Ser Thr Asn Ala Phe Ser Thr Lys Ash Val Ala Phe Asn His 
1-5 10 15 

Asp Ser Ser Ser Phe Asp His Thr Val Asp Gly Phe Leu Thr Ala Asp 
' 20 ' 25 • 30 

Thr Trp Tyr Arg Pro Lys Ser He Leu Ala Asn Gly Thr Thr Trp Arg 
35 . . • 40 : . . 45 • . * 

Asp Ser Thr* Asp Lys Asp. Met Arg Pro Leu He Thr. Val Trp Trp' Pro. 
50 L ' 55 60 

Asn Lys Asn Val Gin Val Asn Tyr Leu Asn Phe Met Lys Ala Asn Gly 
65 - • 70 75 80 

Leu Leu Thr Thr Ala Ala Gin Tyr Thr Leu His Ser Asp Gin Tyr Asp 
85 90 95 

Leu Asn Gin Ala Ala Gin Asp Val Gin Val Ala He Glu Arg Arg He 
-100 - 105 HO 

Ala Ser Glu Hi's Gly Thr Asp Trp Leu Gin Lys Leu Leu Phe Glu Ser 
115 . * f . 120 . 125 

Gin Asn Asn Asn Pro Ser -Phe Val Lys Gin Gin Phe He Trp Asn Lys 
130 • 135 140 

Asp Ser Glu Tyr His Gly Gly Gly Asp Ala' Trp Phe Gin Gly Gly Tyr 
145 - ; 150 .-: 155 . . - 160. 

Leu Lys. Tyr ..Gly Asn Asn Pro Leu Thr Pro Thr Thr Asn Ser Asp- Tyr 
165 170 175 

Arg Gin Pro' 'Gly Asn' Ala Phe Asp Phe Leu Leu Ala Asn Asp Val Asp 
180 185 . ■ 190 • • " . 

Asn Ser Asn Pro Val Val Gin Ala Glu Asn Leu Asn Trp Leu His Tyr 



1 



regue le 23/10/01 



195 200 205 

Leu Met Asn Phe Gly Thr lie Thr Ala Gly Gin Asp Asp Ala Asn Phe 
210 215 220 

Asp Ser lie Arg lie Asp Ala Val Asp Phe lie His Asn Asp Thr lie 
225 230 235 240 

Gin Arg Thr Tyr Asp Tyr Leu Arg Asp Ala Tyr Gin Val Gin Gin Ser 
245 250 255 

Glu Ala Lys Ala Asn Gin His lie Ser Leu Val Glu Ala Gly Leu Asp 
260 265 270 

Ala Gly Thr Ser Thr lie His Asn Asp Ala Leu lie Glu Ser Asn Leu 
275 280 285 

Arg Glu Ala Ala Thr Leu Ser Leu Thr Asn Glu Pro Gly Lys Asn Lys 
290 295 300 

Pro Leu Thr Asn Met Leu Gin Asp Val Asp Gly Gly Thr Leu lie Thr 
305 310 " ' 315 320 

Asp His Thr Gin Asn Ser Thr Glu Asn Gin Ala Thr Pro Asn Tyr Ser 
325 330 335 

lie lie His Ala His Asp Lys Gly Val Gin Glu Lys Val Gly Ala Ala 
340 345 350 

lie Thr Asp Ala Thr Gly Ala Asp Trp Thr Asn Phe Thr Asp Glu Gin 
355 360 365 

Leu Lys Ala Gly Leu Glu Leu Phe Tyr Lys Asp Gin Arg Ala Thr Asn 
370 375 380 

Lys Lys Tyr Asn Ser Tyr Asn lie Pro Ser lie Tyr Ala Leu Met Leu 
385 390 395 400 

Thr Asn Lys Asp Thr Val Pro Arg Met Tyr Tyr Gly Asp Met Tyr Gin 
405 4 10 ^ 415 

Asp Asp Gly Gin Tyr Met Ala Asn Lys Ser He Tyr Tyr Asp Ala Leu 
420 425 430 

Val Ser Leu Met Thr Ala Arg Lys Ser Tyr Val Ser Gly Gly Gin Thr 
435 440 445 

Met Ser Val Asp Asn His Gly Leu Leu Lys Ser Val Arg Phe Gly Lys 
4 50 4 55 4 60 

Asp Ala Met Thr Ala Asn Asp Leu Gly Thr Ser Ala Thr Arg Thr Glu 
465 470 475 " 480 

Gly Leu Gly Val He He Gly Asn Asp Pro Lys Leu Gin Leu Asn Asp 
485 490 495 

Ser Asp Lys Val Thr Leu Asp Met Gly Ala Ala His Lys Asn Gin Lys 
500 505 510 

Tyr Arg Ala Val lie Leu Thr Thr Arg Asp Gly Leu Ala Thr Phe Asn 
515 520 525 
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regue le 23/10/01 



Ser Asp Gin Ala Pro Thr Ala Trp Thr Asn Asp Gin Gly Thr Leu Thr 

530 535 540 

Phe Ser Asn Gin Glu lie Asn Gly Gin Asp Asn Thr Gin lie Arg Gly 

545 550 555 560 

Val Ala Asn Pro Gin Val Ser Gly Tyr Leu Ala Val Trp Val Pro Val 

565 570 575 

Gly Ala Ser Asp Asn Gin Asp Ala Arg Thr Ala Ala Thr Thr Thr Glu 

580 585 590 

Asn His Asp Gly Lys Val Leu His Ser Asn Ala Ala Leu Asp Ser Asn 

595 ■ ' • 600 605. 

Leu lie Tyr Glu Gly Phe Ser Asn Phe Gin Pro Lys Ala Thr Thr His 

610 . 615 • 620 

Asp Glu Leu Thr Asn Val Val lie Ala Lys Asn Ala Asp Val Phe Asn 

625 630 635 640 

Asn Trp Gly lie Thr Ser Phe Glu Met Ala Pro Gin Tyr Arg Ser Ser 

645 ' 650 ' 655 

Gly Asp His Thr Phe Leu Asp Ser Thr lie Asp Asn Gly Tyr Ala Phe 

660 • 665 67 0 

Thr Asp Arg Tyr Asp Leu Gly Phe Asn Thr Pro Thr Lys Tyr Gly Thr 

675 ' 680 685 

Asp Gly Asp Leu Arg Ala Thr lie Gin Ala Leu His His Ala Asn Met 

690 ■ * 695 700 

Gin Val Met Ala Asp Val Val Asp Asn Gin Val Tyr Asn Leu Pro Gly 

705 -710 ■■- • 715 720 

Lys Glu Val Val Ser Ala Thr Arg Ala Gly Val Tyr Gly Asn Asp Asp 

•725 . ' ■ 730 735 

Ala Thr Gly Phe Gly Thr Gin Leu Tyr Val Thr Asn Ser Val Gly Gly 

7 40 • ' 74 5 ' ' 750 " 

Gly Gin Tyr Gin Glu Lys Tyr Ala Gly Gin Tyr Leu Glu Ala Leu Lys 

755 s . 760 765 

Ala Lys Tyr Pro Asp Leu Phe Glu Gly Lys Ala Tyr Asp Tyr Trp Tyr 

770 775 780 



Lys Asn Tyr Ala Asn Asp Gly Ser 
785 790 

Gly Asp Arg Glu Ser lie Pro Ala 
8'05 ' 

Ala Lys Tyr Met Asn Gly Thr Asn 

820 

Val Leu Lys Asp Trp His Asn Gly 
835 • 840 



Asn Pro Tyr Tyr Thr Leu Ser His 
795 - ' 800 

Asp Val Ala lie Lys Gin Trp Ser 
- .810 • 815 

Val Leu Gly Asn Gly Met Gly Tyr 
825 - " ' . 830 ■ 

Gin Tyr Phe Lys Leu Asp Gly Asp 
845 
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Lys Ser Thr Leu Pro Gin lie 
850 855 



<210> 2 
<211> 2835 
<212> PRT 

<213> Acides amines (proteine complete DSR-D) 
<400> 2 

Met Arg Asp Met Arg Val lie Cys Asp Arg Lys Lys Leu Tyr Lys Ser 
1 5 10 15 

Gly Lys Val Leu Val Thr Ala Gly lie Phe Ala Leu Met Met Phe Gly 
20 25 30 

Val Thr Thr Ala Ser Val Ser Ala Asn Thr lie Ala Val Asp Thr Asn 
35 40 45 

His Ser Arg Thr Ser Ala Gin lie Asn Lys Ser Ala Val Asp Lys Val 
50 55 60 

Asn Asp Asp Lys Thr Thr Leu Gly Ala Ala Lys Val Val Ala Val Ala 
65 70 75 80 

Thr Thr Pro Ala Thr Pro Val Ala Asp Lys Thr Val Ser Ala Pro Ala 
85 90 95 

Ala Asp Lys Ala Val Asp Thr Thr Ser Ser Thr Thr Pro Ala Thr Asp 
100 105 110 

Lys Ala Val Asp Thr Thr Pro Thr Thr Pro Ala Ala Asp Lys Ala Val 
115 120 125 

Asp Thr Thr Pro Thr Thr Pro Ala Ala Asp Lys Ala Val Asp Thr Thr 
130 135 140 

Pro Thr Thr Pro Ala Ala Asn Lys Ala Val Asp Thr Thr Pro Ala Thr 
145 150 155 160 

Ala Ala Thr Asp Lys Ala Val Ala Thr Pro Ala Thr Pro Ala Ala Asp 
165 170 175 

Lys Leu Ala Asn Thr Thr Pro Ala Thr Asp Lys Ala Val Ala Thr Thr 
180 185 190 

Pro Ala Thr Pro Val Ala Asn Lys Ala Ala Asp Thr Ser Ser lie His 
195 200 205 

Asp Gin Pro Leu Asp Thr Asn Val Pro Thr Asp Lys Ser Ala Asn Leu 
210 215 220 

Val Ser Thr Thr Gin Lys Ser Thr Asp Asn Gin Gin Val Lys Ser Thr 
225 230 235 ° 240 

Glu Thr Ser His Leu Gin Glu He Asn Gly Lys Thr Tyr Phe Leu Asp 
245 250 " 255 

Asp Asn Gly Gin Val Lys Lys Asn Phe Thr Ala He He Asp Gly Lys 
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260 265 270 

Val Leu Tyr Phe Asp Lys Thr Ser Gly Glu Leu Thr Ala Asn Ala Pro 
275 280 285 

Gin Val Thr Lys Gly Leu Val Asn lie Asp Asn Ala His Asn Ala Ala 
290 295 300 

His Asp Leu Thr Ala Asp Asn Phe Thr Asn Val Asp Gly Tyr Leu Thr 

305 310 315 320 

Ala Asn Ser Trp Tyr Arg Pro Lys Asp lie Leu Lys Asn Gly Thr Thr 

, 325 330 , 335 

Trp Thr Pro Thr Thr Ala Glu Asp Phe Arg Pro Leu Leu Met Ser Trp 

340 _\ c,--. 345 , 350 . 

Trp Pro Asp Lys Asn Thr Gin Val Ala Tyr Leu Gin Tyr Met Gin Ser 
355 ~ - 360 . 365 

Val Gly Met Leu Pro Asp Asp Val Lys Val Ser Asn Asp Asp Asn Met 

370 . 375 • . . 380 / 

Ser Thr Leu Thr Asp Ala Ala Met Thr Val Gin Lys Asn lie Glu Ser 

385 390 395 400 

Arg lie Gly Val Ser Gly Lys Thr Asp Trp Leu Lys Gin Asp Met Asn «;< 

4 05 .410 ;. . • 415 , - £ . 

Lys Leu lie Asp Ser Gin Ala Asn Trp Asn lie Asp Ser Glu Ser Lys 

420 . . ' . . 425 . - . - , 430 > . t 

Gly Asn Asp His Leu Gin Gly Gly Ala Leu Leu Tyr Val Asn Asp Asp 

4 35 . 4 40 « ■ 4 45 ■ • . • > 

Lys Thr Pro Asn Ala Asn Ser Asp Tyr Arg Leu Leu Asn Arg Thr Pro 

450 ■ 455 460 & 

Thr Asn Gin Thr Gly Gin lie Thr Asp Pro Ser Lys Gin Gly Gly Tyr 

465' 470 475 , . . . 480 

Glu Met Leu Leu Ala Asn Asp Val Asp Asn Ser Asn Pro Val Val Gin 

485 490 . 495 . 

Ala Glu Gin Leu Asn Trp Leu His Tyr Met Met Asn He Gly Thr He 
500 505 510 . 

Ala Gin Asn Asp Pro Thr Ala Asn Phe Asp Gly Tyr Arg Val Asp Ala 

515 520 • 525 ... , \ 

Val Asp Asn Val Asp Ala Asp Leu Leu Gin lie Ala Gly Asp Tyr Phe 

530 . , 535 . , , . 54 0 . - :> . - •/ - 

Lys Ala Ala Tyr Gly Thr Gly Lys Thr Glu Ala Asn Ala Asn Ash His 

545 - 550 . , 555 - . • : 560 , 

lie Ser lie Leu Glu Asp Trp Asp Asn Asn Asp Ser Ala Tyr He Lys 

,565 ; „ 570 ... . 575, . • . . , 

Ala His Gly Asn Asn Gin Leu Thr Met Asp Phe Pro Ala His Leu Ala 
580 - 585 -590 
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Leu Lys Tyr Ala 
595 

Pro Leu lie Asn 
610 

Asn Glu Ala Gin 
625 

Val Gin Thr Val 



Ser Asp Gly Leu 
660 

lie Tyr Asn Ala 

675 

Asn lie Pro Ala 
690 

Pro Arg Val Tyr 
705 

Ser Gin Lys Ser 



Arg lie Lys Tyr 
740 

His Glu Cys Phe 
755 

Leu Thr Ser Val 
770 

Gly Asn Ser Asp 
785 

Lys Pro Phe Leu 



Gly Ala Ala His 
820 

Lys Ser Gly Leu 
8 35 

Tyr Thr Asn Asp 
850 

Gly Val Ser Asn 
865 

Val Gly Ala Ser 



Glu Thr Lys Asp 
900 



Leu Asn Met Pro 
600 

Thr Ser Leu Val 
615 

Pro Asn Tyr Ala 
630 

lie Ala Gin lie 
645 

Thr Val Thr Pro 



Asp Glu Leu Lys 
680 

Ser Tyr Ala Val 
695 

Tyr Gly Asp Leu 
710 

Pro Tyr Tyr Asp 
725 

Val Ala Gly Gly 



Asp Pro Ala .Lys 
760 

Arg Tyr Gly Lys 
775 

Thr Arg Gin Gin 
790 

Asn Leu Asn Asp 
805 

Lys Asn Gin Ala 



Gin lie Tyr Asp 
840 

Ala Gly Gin Leu 

855 

Pro Gin Val Ser 
870 

Asp Ser Gin Asp 
885 

Gly Asp Val Tyr 



Leu Ala Ala Gin 



Lys Arg Gly Lys 
620 

Phe lie Arg Ala 
635 

lie Lys Asp Lys 
650 

Asp Glu lie Lys 
665 

Ala Asp Lys Glu 



Leu Leu Thr Asn 
700 

Phe Ser Asp Asp 
715 

Ala lie Thr Ser 
730 

Gin Ser Met Asn 
745 

Asn Glu Thr Lys 



Gly Ala Met Thr 
780 

Gly lie Gly Leu 
795 

Asp Glu Gin lie 
810 

Tyr Arg Pro Leu 

825 

Lys Asp Ala Gly 



lie Phe Lys Ser 
860 

Gly Tyr Phe Ala 
875 - 

Ala Arg Thr Gin 
890 

His Ser Asn Ala 
905 



Ser Gly Leu Glu 
605 

Asp Ala Thr Glu 



His Asp Ser Glu 
640 

lie Asn Thr Lys 
655 

Gin Ala Phe Thr 
670 

Tyr Thr Ala Tyr 
685 

Lys Asp Thr Val 



Gly Gin Tyr Met 
720 

Leu Leu Lys Ser 
735 

Met Thr Tyr Leu 
750 

Pro Gin Gly Val 
765 

Ala Asp Asp Leu 



Val lie Asn Asn 
800 

Val Leu Asn Met 
815 

Met Leu Thr Thr 
830 

Ala Pro Val Val 
845 

Asp Met Val Tyr 



Ala Trp Val Pro 
880 

Ser Ser Gin Ser 
895 

Ala Leu Asp Ser 
910 
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Asn Val lie Tyr Glu Gly Phe Ser Asn Phe Gin Ala Met Pro Glu Lys 

915 920 925 

Asn Asp Asp Phe Thr Asn Val Lys lie Ala Gin Asn Ala Lys Leu Phe 
930 : 935 94 0 

Lys Asp Leu Gly He Thr Ser Phe Glu Leu Ala Pro Gin Tyr Arg Ser 
945 950 955 960 

Ser Thr Asp Asn Ser Phe Leu Asp Ser Val He Gin Asn Gly Tyr Ala 
965 970 975 

Phe Thr Asp Arg Tyr Asp Val Gly Tyr Asn Thr Pro Thr Lys Tyr Gly 

980* . 985 990 

Thr Val Asp Gin Leu Leu Asp Ser Leu Arg Ala Leu His Ala Gin Gly 

995 . ■ 1000 . 1005 ■ . 

He Gin Ala lie Asn Asp Trp Val Pro Asp Gin He Tyr Asn Leu Pro 
1010 1015 1020 

Gly Glu Gin He Val Thr Ala Val Arg Thr Asn Gly Ser Gly Lys Tyr 

1025 . 1030 . 1035 . 1040 - . 

Asp Tyr Asp Ser Val He Asn Asn Thr Leu Tyr Asp Ser Arg Thr Val 

1045 1050 1055 : : *k 



Gly Gly Gly Glu Tyr Gin Glu Lys Phe Gly Gly Leu Phe Leu Asp Gin 

1060 1065 1070 

Leu Lys Lys Asp Tyr Pro Ser Leu Phe Glu Thr Lys Gin He Ser Thr 

1075 . 1080 1085 

Asn Gin Pro Met Asn Pro Asp Val Lys He Lys Glu Trp Ser Ala Lys 

1090 ' 1095 • 1100 

Tyr Phe Asn Gly Ser Asn He Gin Gly Arg Gly Ala Trp Tyr Val Leu 

1105 1110 1115 1120 

Lys Asp Trp Ala Thr Asn Gin Tyr Phe Asn Val Ser Ser Asp Asn Gly 
1125 • 1130 1135 

Phe Leu Pro Lys Gin Leu Leu Gly Glu Lys Thr Ser Thr Gly Phe He 

1140 • 1145 1150 

Thr Glu Asn Gly Lys Thr Ser Phe Tyr Ser Thr Ser Gly Tyr Gin Ala 

1155 1160 . 1165 

Lys Asp Thr Phe He Gin Asp Gly Thr Asn Trp Tyr Tyr Phe Asp Asn 

1170 1175 • 1180 

Ala Gly Tyr Met Leu Thr Gly Lys Gin Asn He His Asp Lys Asn Tyr 

1185 1190 1195 • 1200 

Tyr Phe Leu Pro Asn Gly Val Glu Leu Gin Asp Ala Tyr Leu Phe Asp 
1205 . 1210 1215 

Gly Asn Gin Glu Phe Tyr Tyr Asn Lys Ala Gly Glu Gin Val Met Asn 

1220 - . 1225 1230 
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Gin Tyr Tyr Gin Asp Ser Gin Asn Gin Trp His Tyr Phe Phe Glu Asn 
1235 1240 ; 1245 

Gly Arg Met Ala lie Gly Leu Thr |du Val Pro Asn Ala Asp Gly Thr 
1250 1255 ! 1260 

His Val Thr Gin Tyr Phe Asp Ala Asn Gly Val Gin He Lys Gly Thr 
1265 1270 ■ 1275 1280 

Ala He Lys Asp Gin Asn Asn Gin Leu Arg Tyr Phe Asp Glu Ala Thr 
1285 1290 1295 

Gly Asn Met Val Val Asn Ser Trp Gly Gin Leu Ala Asp Lys Ser Trp 
1300 1305 1310 

Leu Tyr Leu Asn Ala Gin Gly Val Ala Val Thr Gly Asn Gin Lys lie 
1315 1320 1325 

Asp Gly Glu Glu Tyr Tyr Phe Asn .Ala Asp Gly Lys Gin Val Lys Gly 
1330 1335 1340 

Asn Ala lie He Asp Asn Asn Gly Asp Gin Arg Tyr Tyr Asp Gly Asp 
1345 1350 1355 1360 

Lys Gly Val Met Val Val Asn Ser 'Trp Gly Glu Leu Pro Asp Gly Ser 
1365 1370' 1375 

Trp Leu Tyr Leu Asn Asp Lys Gly : He Ala Val Thr Gly Arg Gin Val 
1380 1385 1390 

He Asn Asn Gin Val Asn Phe Phe : Gly Asn Asp Gly Lys Gin He Lys 
1395 1400 ! 1405 

Asp Ala Phe Lys Leu Leu Ser Asp Gly Ser Trp Val Tyr Leu Asp Asp 
1410 1415 1420 

Lys Gly Leu He Thr Thr Gly Ala I Lys Val He Asn Gly Leu Asn Met 
1425 1430 : 1435 1440 

Phe Phe Asp Lys Asp Gly His Gin. He Lys Gly Asp Ala Ser Thr Asp 
1445 ; 1450 1455 

Ala Asn Gly Lys Arg His Tyr Tyr Asp Lys Asn Asp Gly His Leu Val 
14 60 " 14 65 14 70 

Thr Asn Ser Trp Gly Glu Leu Pro Asp Gly Ser Trp Leu Tyr Leu Glu 
1475 1480 1485 

Glu Gin Gly Asp Ala Val Thr Gly Gin Arg Val lie Asp Gly Lys Thr 
1490 1495 1500 

Arg Tyr Phe Asp Glu Asp Gly Lys Gin He Lys Asn Ser Leu Lys Thr 
1505 ~ 1510 1515 1520 

Leu Ala Asn Gly Asp Lys lie Tyr. Leu Asp Gly Asp Gly Val Ala Ala 
' 1525 1530 1535 

Thr Gly Leu Gin His Val Gly Asp! Lys He Met Tyr Phe Asp Glu Asp 
1540 1545 1550 
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Gly Lys Gin Val Val Gly Lys Phe Val Ser Ala Lys Asp Gly Ser Trp 
1555 1560 ' 1565 

Tyr Tyr Leu Asn Gin Asp Gly Val Ala Ala Val Gly Pro Ser Ser lie 
1570 1575 1580 

Asn Gly Gin Ser Leu Tyr Phe Asp Gin Asp Gly Lys Gin Val Lys Tyr . 
1585 1590 1595 . 1600 

Asn Glu Val Arg Asn Ser Asp Gly Thr Thr Asn Tyr Tyr Thr Gly Leu _ 
1605 1610 1615 

Thr Gly Glu Lys Leu Thr Gin Asp Phe Gly Glu Leu Pro Asp Gly Ser • 
1620 1625 1630 

Trp lie Tyr Leu- Asp. Ala Gin Gly His Thr Val Thr Gly Ala Gin lie 
1635 1640 .1645 

lie Asn Gly Gin Asn Leu Tyr Phe Lys Ala Asp Gly Gin Gin Val Lys , . 
1650 1655 1660 

Gly His Ala Tyr Thr Asp Gin Leu Gly His Met Arg Phe Tyr Asp Pro 
1665 1670 1675 1680 

Asp Ser Gly Asp Met Leu Ser Asn Arg Phe Glu Gin lie. Thr Pro Gly . _ 
1685 1690 1695 \y. 

Val Trp Ala Tyr Phe Gly Ala Asp Gly Val Ala lie Thr Gly Gin His fe. / . ,• 1 

1700 1705 - 1710 -.i- 

Asp lie Asn Gly .Gin Lys Leu Phe Phe .Asp Glu ;Thr Gly Tyr Gin Val ; - t , • 

1715 1.720 1725 , 

Lys Gly Ser Gin Arg Thr lie Asp Gly Thr Leu Tyr Ser Phe Asp Ser , . , fc> . . 

1730 1735 1740 ' . l : , 

Gin Thr Gly Asn Gin Lys Arg Val Gin Thr Thr Leu Leu Pro Gin Ala 
1745 ' " ■ 1750 1755 1760 ■ ' m - 

Gly His Tyr lie Thr. Lys. Asn Gly Asn Asp Trp Gin Tyr Asp Thr Asn . 

1765 1770 1775 , 

Gly Glu Leu Ala -Lys Gly Leu Arg Gin Asp Ser Asn Gly Lys Leu Arg 
1780 1785 1790 

Tyr Phe Asp Leu Thr Thr Gly lie .Gin Ala Lys Gly Gin Phe Val Thr 
1795 1800 1805 

lie Gly Gin Glu Thr Tyr Tyr Phe Ser Lys Asp His Gly Asp Ala .Gin . ,■ . 
1810 1815 1820 

Leu Leu Pro Met Val. Thr Glu Gly His -Tyr Gly Thr lie Thr Leu Lys . 
1825 . 1830 1835 * 1840 * • < 

Gin Gly Gin Asp 'Thr Lys , Thr Ala Trp Val -Tyr Arg Asp Gin. Asn Asn 
1845 1850 1855 

Thr lie Leu Lys Gly Leu Gin. Asn lie Asn Gly Thr .-Leu ■ Gin Phe , Phe .. . 

1860 1865 1870 
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Asp Pro Tyr Thr Gly Glu Gin Leu Lys Gly Gly Val Ala Lys Tyr Asp 
1875 1880 1885 

Asp Lys Leu Phe Tyr Phe Glu Ser Gly Lys Gly Asn Leu Val Ser Thr 
1890 1895 1900 

Val Ala Gly Asp Tyr Gin Asp Gly His Tyr lie Ser Gin Asp Gly Gin 
1905 1910 1915 ~ 1920 

Thr Arg Tyr Ala Asp Lys Gin Asn Gin Leu Val Lys Gly Leu Val Thr 
1925 1930 ~ ~ 1935 

Val Asn Gly Ala Leu Gin Tyr Phe Asp Asn Ala Thr Gly Asn Gin lie 
1940 1945 1950 

Lys Asn Gin Gin Val lie Val Asp Gly Lys Thr Tyr Tyr Phe Asp Asp 
1955 1960 1965 

Lys Gly Asn Gly Glu Tyr Leu Phe Thr Asn Thr Leu Asp Met Ser Thr 
1970 1975 1980 

Asn Ala Phe Ser Thr Lys Asn Val Ala Phe Asn His Asp Ser Ser Ser 
1985 1990 1995 ' 2000 

Phe Asp His Thr Val Asp Gly Phe Leu Thr Ala Asp Thr Trp Tyr Arg 
2005 2010 J 2015 

Pro Lys Ser lie Leu Ala Asn Gly Thr Thr Trp Arg Asp Ser Thr Asp 
2020 2025 2030 

Lys Asp Met Arg Pro Leu lie Thr Val Trp Trp Pro Asn Lys Asn Val 
2035 2040 2045 

Gin Val Asn Tyr Leu Asn Phe Met Lys Ala Asn Gly Leu Leu Thr Thr 
2050 2055 2060 

Ala Ala Gin Tyr Thr Leu His Ser Asp Gin Tyr Asp Leu Asn Gin Ala 
2065 2070 2075 2080 

Ala Gin Asp Val Gin Val Ala lie Glu Arg Arg lie Ala Ser Glu His 
2085 2090 2095 

Gly Thr Asp Trp Leu Gin Lys Leu Leu Phe Glu Ser Gin Asn Asn Asn 
2100 2105 2110 

Pro Ser Phe Val Lys Gin Gin Phe He Trp Asn Lys Asp Ser Glu Tyr 
2H5 2120 2125 

His Gly Gly Gly Asp Ala Trp Phe Gin Gly Gly Tyr Leu Lys Tyr Gly 
2130 2135 2140 

Asn Asn Pro Leu Thr Pro Thr Thr Asn Ser Asp Tyr Arg Gin Pro Gly 
2145 2150 2155 2160 

Asn Ala Phe Asp Phe Leu Leu Ala Asn Asp Val Asp Asn Ser Asn Pro 
2165 2170 2175 

Val Val Gin Ala Glu Asn Leu Asn Trp Leu His Tyr Leu Met Asn Phe 
2180 2185 2190 
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Glv Thr He Thr Ala Gly Gin Asp Asp Ala' Asn Phe Asp Ser He Arg 
2195 2200 2205 

He Asp Ala Val Asp Phe He His Asn Asp Thr He Gin Arg Thr Tyr 
2210 ~ 2215 2220 

Asp Tyr Leu Arg Asp Ala Tyr Gin Val Gin Gin Ser Glu Ala Lys. Ala 
2225 2230 2235 2240 

Asn Gin His He Ser Leu Val Glu Ala Gly Leu Asp Ala Gly Thr Ser 
2245 2250 2255 

Thr He His Asn Asp" Ala Leu He Glu Ser Asn Leu Arg Glu Ala Ala 
2260 2265 2270 

Thr Leu Ser Leu'.Thr 'Asn Glu Pro Gly Lys Asn Lys Pro Leu Thr Asn- 
2275 2280 2285 

Met Leu Gin Asp Val Asp Gly Gly Thr Leu He Thr Asp His Thr . Gin 
2290 2295 2300 

Asn Ser Thr Glu Asn Gin Ala Thr Pro. Asn Tyr Ser He He His-Ala 
2305 ' 2310 2315 . ' 2320 

His Asp Lys Gly Val Gin Glu Lys Val Gly Ala Ala lie Thr , Asp Ala 
2325 • • 2330 2335 

Thr Gly Ala Asp Trp Thr Asn Phe Thr Asp Glu Gin Leu Lys Ala Gly 
2340 " 2345 . . . _ 2350 

Leu Glu Leu Phe Tyr Lys' Asp Gin Arg- Ala: Thr Asn Lys Lys Tyr Asn 
2355 2360 '2365 

Ser Tyr Asn lie Pro- Ser lie Tyr Ala Leu Met Leu< Thr Asn .Lys. Asp 
2370 2375 > 2380 

Thr Val Pro Ara'Met Tyr Tyr Gly Asp Met Tyr -Gin" Asp Asp Gly. Gin 
2385 " ' 2390 2395 ■ - 2400 

Tyr Met Ala Asn' Lys* Ser- He Tyr Tyr Asp- Ala Leu Val Ser Leu Met- 
2405 2410 2415 , . : 

Thr Ala Arg Lys ''Ser 1 Tyr Val- Ser Gly Gly Gin Thr Met Ser Val Asp 
2420 - 2425 2430 

£sn His Glv Leu "Leu Lys Ser. Val Arg Phe Gly Lys Asp Ala Met Thr 
2435 2440 2445 

Ala Asn Asp Leu Gly Thr Ser -Ala' Thr Arg Thr Glu Gly Leu-, Gly -Val 
2450 2455 • • 2460 

lie He Gly Asn -Asp Pro -Lys Leu- Gin Leu Asn Asp Ser Asp Lys Val' 
2465 2470 : 2475 • 2480 

Thr Leu Asp Met ' Gly '"Ala Ala- His Lys Asn Gin Lys Tyr Arg Ala- Val. 

2485 '• 2490 • 2495 

lie Leu Thr Thr Arg Asp Gly Leu-Ala Thr Phe Asn -Ser Asp Gin Ala 
2500 2505 2510 
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Pro Thr Ala Trp Thr Asn Asp Gin Gly Thr Leu Thr Phe Ser Asn Gin 
2515 2520 2525 

Glu lie Asn Gly Gin Asp Asn Thr Gin lie Arg Gly Val Ala Asn Pro 
2530 2535 2540 

Gin Val Ser Gly Tyr Leu Ala Val Trp Val Pro Val Gly Ala Ser Asp 
2545 2550 2555 2560 

Asn Gin Asp Ala Arg Thr Ala Ala Thr Thr Thr Glu Asn His Asp Gly 
2565 2570 2575 

Lys Val Leu His Ser Asn Ala Ala Leu Asp Ser Asn Leu lie Tyr Glu 
2580 2585 2590 

Gly Phe Ser Asn Phe Gin Pro Lys Ala Thr Thr His Asp Glu Leu Thr 
2595 2600 2605 

Asn Val Val lie Ala Lys Asn Ala Asp Val Phe Asn Asn Trp Gly lie 
2610 2615 2620 

Thr Ser Phe Glu Met Ala Pro Gin Tyr Arg Ser Ser Gly Asp His Thr 
2625 2630 2635 2640 

Phe Leu Asp Ser Thr lie Asp Asn Gly Tyr Ala Phe Thr Asp Arg Tyr 
2645 2650 2655 

Asp Leu Gly Phe Asn Thr Pro Thr Lys Tyr Gly Thr Asp Gly Asp Leu 
"2660 2665 2670 

Arg Ala Thr lie Gin Ala Leu His His Ala Asn Met Gin Val Met Ala 
2675 2680 2685 

Asp Val Val Asp Asn Gin Val Tyr Asn Leu Pro Gly Lys Glu Val Val 
2690 2695 2700 

Ser Ala Thr Arg Ala Gly Val Tyr Gly Asn Asp Asp Ala Thr Gly Phe 
2705 2710 2715 2720 

Gly Thr Gin Leu Tyr Val Thr Asn Ser Val Gly Gly Gly Gin Tyr Gin 
2725 2730 2735 

Glu Lys Tyr Ala Gly Gin Tyr Leu Glu Ala Leu Lys Ala Lys Tyr Pro 
2740 2745 2750 

Asp Leu Phe Glu Gly Lys Ala Tyr Asp Tyr Trp Tyr Lys Asn Tyr Ala 
2755 2760 2765 

Asn Asp Gly Ser Asn Pro Tyr Tyr Thr Leu Ser His Gly Asp Arg Glu 
2770 " 2775 2780 

Ser lie Pro Ala Asp Val Ala lie Lys Gin Trp Ser Ala Lys Tyr Met 
2785 2790 2795 2800 

Asn Gly Thr Asn Val Leu Gly Asn Gly Met Gly Tyr Val Leu Lys Asp 
2805 2810 2815 

Trp His Asn Gly Gin Tyr Phe Lys Leu Asp Gly Asp Lys Ser Thr Leu 
2820 2825 2830 
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Pro Gin lie 
2835 



<210> 3 

<211> 2568 - 
<212> ADN 

<213> Nucleotides (doraaine catalytique n° 2) 
<400> 3 

gatatgtcta ctaatgcttt ttctaccaaa aatgttgcat tcaatcatga cagtagcagt 60 
ttcgaccata ctgttgatgg cttcttgacg gcagatactt ggtatcgacc aaagtcaatt 120 
ttggctaacg ggacaacttg gcgtgattcg actgataagg atatgcgacc attaatcact 180 
gtttggtggc caaataagaa tgttcaagtc aactacctca acttcatgaa agcaaatggc 240 
ttgttgacaa cagcacjcaca-. atacacacta cattcagatc aatatgattt gaaccaagct 300 
gcacaagatg ttcaagtggc cattgaaagg cgcattgcgt cagagcatgg cacagactgg 360 
ttacagaaat tgttgtttga atcacaaaat aataacccat catttgtgaa gcaacaattc 420 
atttggaaca aggattctga atatcatggt. ggtggtgatg cttggttcca aggtggttat 480 
ctgaagtatg gcaataaccc actcacacca acaactaatt ctgattatcg tcaacctggt 540 
aatgcatttg atttcttgct agccaacgac gtggataatt ctaatcctgt tgtgcaagct 600 
gaaaacttaa actggttaca ttacttaatg aactttggca ccatcactgc gggtcaagat 660 
gacgctaatt ttgatagtat tcgtattgac gctgtcgact ttattcataa tgatacaatc 720 
caacgtactt atgattatct tcgtgatgct tatcaagtgc aacaaagtga agccaaagca 780 
aaccagcaca tttcattggt tgaagctggc ttagacgcag gtacatcaac gattcataat , 840 
gatgcgttaa ttgagtcaaa c.ctccgtgaa gcagcgacat tgtcgttaac aaatgaacct 900 
ggtaaaaata aaccattgac gaatatgcta caagacgttg acggcggtac gcttatcacc 960 
gaccatacgc agaatagtac, agaaaatcag gcgacaccaa actattcaat tattcacgcg 1020 
cacgataaag gtgtgcaaga aaaagtaggt gcagccatta ctgatgctac tggtgctgat 1080 
tggacgaact ttacagatga acagttaaaa gccggattag agctattcta taaggatcag 1140 
cgcgcaacaa acaaaaagta - taatagttat . aacataccaa. gtatttatgc cctgatgttg 1200 
acaaacaaag atactgttcc tcgtatgtat tatggggata tgtatcaaga tgacggacag 1260 
tatatggcaa acaagagtat ctactatgat gccttagtgt cattaatgac ggctcgtaaa 1320 
agctatgtca gcggtggtca aactatgagt -gttgacaatc atggtttgtt gaagagtgtc 1380 
cgttttggaa aagatgcgat gacagctaat gatttaggta catcagctac gcgtactgag 14 4 0 
ggtcttggtg tcattattgg taatgatcca aagttgcaac ttaatgattc ggataaagtg 1500 
acactggata tgggtgcagc acataaaaat caaaagtatc gcgcagttat cttaacaaca 1560 
cgtgatggtt tggcaacctt taattcagat caagcaccaa cagcttggac aaacgatcaa 1620 
ggaacgttaa cattctcaaa tcaagagatt aacgggcaag acaatacaca aattcgtggt 1680 
gttgctaatc cgcaagtttc tggttatcta gctgtttggg tgcctgtggg tgcatcagac 1740 
aatcaagatg cccgtacagc agcaacgaca acagaaaatc atgatggtaa agtattacac 1800 
tcgaatgcgg cattagattc taaccttatt tatgaaggtt tctctaactt ccaacctaag 1860 
gcaacaacgc atgatgaact tacgaacgtt gtaattgcta aaaatgccga tgtcttcaat. 1920 
aattggggta ttacgagttt tgaaatggca ccacagtacc gttcaagtgg ggac'cataca 1980 
ttcttggatt caacgattga taatggttat gccttcactg atcgctatga cttaggtttc 2040 
aatacaccaa caaagtatgg cactgatggt gatttgcgtg caacgattca agcgctacat 2100 
catgctaata tgcaagttat ggctgacgtt gttgataacc aggtctataa cttacctggt 2160 
aaagaagttg tttcagcaac acgagcaggt gtttatggta atgacgacgc cacgggcttt 2220 
ggaacgcaac tctatgtgac taactccgtt ggtggtggtc aataccaaga gaaatatgct. 2280 
ggacaatact tagaagctct gaaagcaaag tatccagacc tctttgaggg taaggcctat 2340 
gattattggt ataagaacta tgcaaatgat gggtcaaatc cttactatac attgtcacac 2400 
ggtgaccgtg aatct.atccc agcagatgtt gctattaagc aatggtcagc taagtatatg 24.60 
aacggcacga acgttttggg caatggtatg ggttatgtat tgaaggattg gcataatggt 2520 
caatatttca agcttgatgg tgataaatca acattacctc aaatttaa 2568 



<210> 4 • 
<211> 8506 
<212> ADN 

<213> Sequence codant DSR-D 
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<400> 4 

atgagagaca tgagggtaat ttgtgaccgt aaaaaattgt acaaatcggg caaagtacta 60 
gtaacagccg gtatttttgc tttgatgatg tttggcgtca caactgctag tgttagtgca 120 
aatacgattg cagttgacac gaatcatagc cgtacttcag cacagattaa taagagtgcc 180 
gttgataagg ttaatgatga caagactact ttaggagcgg caaaagtagt ggcagtagcc 240 
acaacgccag cgacaccggt agcagataaa acagtaagtg cacccgcagc agataaggca 300 
gtagatacaa cgtcatcaac gacacctgca acggataagg cagtagatac aacgccaacg 360 
acacctgcag cagataaggc agtagataca acgccaacga cacctgcagc agataaggca 420 
gtagatacaa cgccaacgac acctgcagca aataaagcag tagatacaac gccagcgacc 480 
gctgcaacag ataaggcggt agccacgcca gccacacctg cagcagataa gctagcaaat 540 
acgacgcctg caacggacaa ggcagtagcc acaacgccag cgacgccggt agcaaataaa 600 
gcagcagaca cgagtagtat tcatgatcaa ccattagata caaatgtgcc aactgataaa 660 
tcagcaaacc tcgtctcgac aacacaaaaa agtacggata atcaacaagt taagtctaca 720 
gaaacatctc atcttcaaga aatcaacggt aaaacctatt ttcttgacga caatggtcaa 780 
gttaaaaaga acttcaccgc tattattgac ggtaaagttc tatactttga taaaacatcc 840 
ggcgaattga ccgcaaatgc accgcaagtt actaagggat tagtaaatat tgataatgca 900 
cataacgcgg ctcatgatct cacagctgat aacttcacaa atgtcgatgg ttacttaaca 960 
gctaacagtt ggtatcgtcc taaggacatc ttaaaaaacg gaacgacctg gacaccaaca 1020 
acagcagaag attttcgacc attgctcatg tcttggtggc cggataagaa tacgcaggta 1080 
gcttatctac aatatatgca atcagttggt atgctacctg acgatgttaa agtatcaaat 1140 
gatgataata tgagcacatt gactgatgct gctatgactg ttcaaaagaa tatcgaatcg 1200 
cgaattggtg tatctggaaa aactgattgg ctcaagcaag atatgaacaa actgattgat 1260 
tcacaggcaa attggaatat tgatagtgaa tcaaagggta atgatcattt acagggtggg 1320 
gcattgttat atgtgaatga tgacaaaaca cctaacgcga actcagatta ccgtctgtta 1380 
aaccgtacac caaccaacca aaccggccaa attactgatc caagtaaaca aggtggatat 1440 
gagatgttat tagctaatga tgttgataat tctaaccctg ttgtacaagc tgagcaattg 1500 
aactggcttc actacatgat gaacattggt actatagctc agaacgaccc aacagctaat 1560 
tttgacggtt atcgtgttga tgcggttgat aacgttgatg ccgatctctt acaaattgct 1620 
ggtgattact ttaaagctgc atacggtact ggtaaaactg aggcaaacgc aaacaatcat 1680 
atttcgatct tggaagattg ggataataat gattctgcgt acattaaagc ccacgggaat 1740 
aaccaattga caatggattt tccagcacac ttggctttga aatacgcctt gaacatgcct 1800 
cttgccgcac aaagtggcct agaaccgcta attaatacaa gtcttgttaa gcgtgggaaa 1860 
gatgccacag aaaatgaagc acaaccaaac tatgccttta tccgtgccca tgatagtgaa 1920 
gtgcagaccg ttattgcaca aattattaag gataaaatta acacaaaatc agacggctta 1980 
actgtaacac cagatgagat taagcaagct ttcactattt acaacgccga tgaattaaaa 2040 
gcagataagg aatatacagc atacaatatt cctgcttctt acgctgtatt gttgacaaac 2100 
aaggatactg tgccacgtgt ttattatggt gatctatttt ctgatgatgg acagtatatg 2160 
tcacagaagt caccatacta tgacgccatt acgtcacttt tgaaaagccg tatcaaatat 2220 
gttgctggtg gtcaaagtat gaatatgacg tacttgcatg agtgctttga tccagcaaaa 2280 
aatgagacaa agccacaagg tgtcttaaca tcagtacgtt acggtaaagg tgcgatgacg 2340 
gctgacgatt tgggtaatag tgacacacgt caacaaggta ttggtttggt gattaataat 2400 
aagccattct tgaatttaaa tgatgatgaa caaattgtgc tcaatatggg tgctgctcac 24 60 
aaaaatcaag cttaccgacc acttatgttg acaacaaaat ctggtcttca aatttacgat 2520 
aaggatgccg gagcgccagt tgtttatact aacgatgctg gtcaacttat ttttaagtca 2580 
gatatggtct atggtgtcag caatccacag gtatctggtt attttgctgc atgggtacca 2640 
gtcggtgcga gtgatagtca agatgctaga acacaaagca gccagtcaga aactaaggat 2700 
ggcgatgtct atcattcaaa tgctgcgctt gattctaatg tgatttatga aggcttctcg 2760 
aatttccaag caatgcctga aaagaatgat gacttcacca acgtaaaaat tgctcaaaat 2820 
gctaaattgt ttaaagattt agggattaca agctttgaat tagcaccgca atatcgttca 2880 
agtacagata atagtttttt ggattcggtt atccaaaacg gctatgcctt tactgatcga 2940 
tatgatgttg gctataatac gccaacaaaa tatggtacag ttgatcaact tctagatagt 3000 
ctaagagcat tacacgcaca aggtattcag gctattaatg actgggtacc tgatcaaatt 3060 
tataatttac ctggcgaaca aatcgtcacc gcagttcgta caaatggttc aggtaagtac 3120 
gattatgatt cagtgattaa taacacgctc tatgattcac gaacagttgg gggcggcgaa 3180 
taccaagaaa agtttggtgg cctgttctta gaccagttga aaaaagatta tcctagcttg 3240 
tttgaaacta agcagatatc aacgaatcag ccgatgaatc cggatgttaa aattaaagaa 3300 
tggtctgcaa agtactttaa tggttcaaac attcaaggtc gtggcgcttg gtatgtactt 3360 ; 
aaagactggg caacaaatca atatttcaat gtgtctagtg ataatggatt cttgcctaaa 3420 
cagttactgg gtgaaaaaac aagcaccggc tttataacag aaaatggtaa gacttctttc 3480 
tactcaacaa gtggttatca agctaaagat acctttattc aagatggaac aaattggtat 3540 
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tactttgata atqcaggcta tatgttgaca ggtaaacaaa atatccacga taaaaattat 3600 
tatttcttac ctaatggtgt ggaacttcaa gatgcttacc tttttgatgg taatcaagaa 3660 
ttttactata ataaagctgg ggaacaagtt atgaaccagt attatcaaga . tagtcaaaat 3720 
caatggcatt atttctttga aaatggtcgc atggcaattg gcctgacaga agttccgaac 3780 
gctgatggca cccatgttac acaatatttt gatgctaatg gtgtccaaat taaaggcaca 3840 
gctataaaag atcagaataa tcaattacgc tattttgatg aggccacagg taatatggtg 3900 
gttaattcat ggggacagtt agcagataag tcttggcttt accttaatgc acaaggcgtt . 3960 
gctgtgactg gtaaccaaaa aattgatggt gaagagtact acttcaatgc tgatggtaag 4020 
caagttaaag gcaatgcaat catcgataat aatggtgatc aacgttatta tgatggtgat 4080 
aagggtgtca tggtagttaa ttcatggggt gagttgccag atggctcatg gttatatttg 4140 
aatgacaaag gtattgctgt aacaggccgt caagtcatta ataatcaagt taatttcttt 4200 
ggtaatgatg gtaagcaaat caaagatgcc tttaaattat tatccgatgg ttcatgggtg 4260 
tatttggatg ataagggcct gataacaact ggagccaaag ttatcaatgg tctaaatatg 4320 
ttttttgata aagacggtca tcaaatcaaa ggtgatgcca gcacggatgc caatggtaag 4380 
cgccattatt atgacaaaaa tgatggtcat cttgtcacaa attcatgggg tgagttgcca 4440 
gatggttcat ggttatatct agaagaacaa ggtgatgctg ttactggtca acgtgtgatt 4 500 
gatggcaaga- cacgctattt tgatgaagat ggcaaacaaa ttaaaaatag cctaaaaacg 4560 
ctggccaatg gcgataagat ttatcttgat ggtgatgggg ttgctgcaac aggcttacaa 4 620 
catgtgggcg ataaaatcat gtattttgat gaagatggca aacaagttgt tggcaagttt 4 68 0 
gtatcagcaa aagatggttc atggtattac ttaaatcagg atggtgttgc cgcggttggt 474 0 
ccaagcagca ttaatggaca atcactttac tttgatcaag atggtaaaca agttaaatat 4800 
aatgaagttc gtaatagtga tggaacaacc aactattaca caggattaac gggtgaaaag 4860 
ttaacgcaag acttcggtga actaccagat ggttcatgga tttatcttga .tgcgcaaggt 4920 
catacagtaa ctggtgcaca aatcattaac ggtcaaaatc tttactttaa ggctgacggc 4 980 
cagcaagtta aaggtcatgc ttatac'tgac . caattaggtc atatgcgttt ttatgatcct* 5040.. 
gattcaggtg atatgttgag taatcgcttt gaacaaatca cacctggtgt: atgggcttac 5100.^ 
tttggtgctg atggtgtggc cataactgga caacatgaca taaatggtca gaagctattc 5160* 
tttgatgaga caggatatca agttaaaggt tcgcaacgta caatagatgg tacgttatac 5220^ 
agcttcgatt ctcaaactgg taaccaaaaa cgcgtacaga caacattgtt gccacaagca 5280^ 
ggtcactata tcacgaaaaa tggtaacgat tggcagtatg ataccaatgg tgaactagcg 5340., 
aagggtctgc gtcaagatag caatggtaag ttgcgttact ttgatttgac aaccggcata -5400 
caagcgaaag gcc'aatttgt tacaattggc caagaaactt attactttag taaagatcac 5460 
ggggatgcgc agttattgcc aatggtcact gaagggcatt acggtacaat aacactcaag 5520. 
caaggtcaag acaccaaaac agcctgggtt taccgtgatc aaaataatac tattttgaag 5580; 
ggattgcaaa atatcaatgg cacgttgcaa ttctttgatc catatacagg tgaacaactt 5640, 
aagggtggcg tagcaaagta tgacgacaag ctcttttact ttgaatcagg taaaggtaat 5700.^ 
cttgttagca ccgtagcagg tgactatcag gatggtcatt atatttccca agatggccaa 5760.^ 
acacgttacg cagataagca aaatcagctt gtaaagggac ttgttactgt taatggggca 5820 
ttacaatact ttgataacgc tactggtaac caaataaaaa atcaacaagt tattgttgat 5880 
ggcaagacgt actattttga cgataaaggc aatggtgaat acttattcac taatacatta 5940 
gatatgtcta ctaatgcttt ttctaccaaa aatgttgcat tcaatcatga cagtagcagt 6000 
ttcgaccata ctgttgatgg cttcttgacg gcagatactt ggtatcgacc aaagtcaatt 6060 
ttggctaacg ggacaacttg gcgtgattcg actgataagg atatgcgacc attaatcact 6120 
gtttggtggc caaataagaa tgttcaagtc aactacctca acttcatgaa agcaaatggc 6180 
ttgttgacaa cagcagcaca atacacacta cattcagatc aatatgattt gaaccaagct 6240 
gcacaagatg ttcaagtggc cattgaaagg cgcattgcgt cagagcatgg cacagactgg 6300 
ttacagaaat tgttgtttga atcacaaaat aataacccat catttgtgaa gcaacaattc 6360 
atttggaaca aggattctga atatcatggt ggtggtgatg cttggttcca aggtggttat 6420 
ctgaagtatg gcaataaccc actcacacca acaactaatt ctgattatcg tcaacctggt 6480 
aatgcatttg atttcttgct agccaacgac gtggataatt ctaatcctgt tgtgcaagct ■ 654 0 
gaaaacttaa actggttaca ttacttaatg aactttggca ccat.cactgc gggtcaagat 6600 
gacgctaatt ttgatagtat tcgtattgac gctgtcgact ttattcataa tgatacaatc 6660 
caacgtactt atgattatct tcgtgatgct tatcaagtgc aacaaagtga - agccaaagca 6720 
aaccagcaca tttcattggt tgaagctggc ttagacgcag gtacatcaac gattcataat 6780 
gatgcgttaa ttgagtcaaa cctccgtgaa geagcgacat tgtcgttaac aaatgaacct 6840 
ggtaaaaata aaccattgac gaatatgcta caagacgttg acggcggtac gcttatcacc 6900 
gaccatacgc agaatagtac agaaaatcag gcgacaccaa actattcaat tattcacgcg 6960 
cacgataaag gtgtgcaaga aaaagtaggt gcagccatta ctgatgctac tggtgctgat 7020 
tggacgaact ttacagatga acagttaaaa gccggattag agctattcta taaggatcag 7080 
cgcgcaacaa acaaaaagta taatagttat aacataccaa gtatttatgc cctgatgttg 7140 
acaaacaaag atactgttcc tcgtatgtat tatggggata tgtatcaaga tgacggacag 7200 
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tatatggcaa acaagagtat ctactatgat 
agctatgtca gcggtggtca aactatgagt 
cgttttggaa aagatgcgat gacagctaat 
ggtcttggtg tcattattgg taatgatcca 
acactggata tgggtgcagc acataaaaat 
cgtgatggtt tggcaacctt ta attcacrat 
ggaacgttaa cattctcaaa tcaagagatt 
gttgctaatc cgcaagtttc tggttatcta 
aatcaagatg cccgtacagc agcaacgaca 
tcgaatgcgg cattagattc taaccttatt 
gcaacaacgc atgatgaact tacgaacgtt 
aattggggta ttacgagttt tgaaatggca 
ttcttggatt caacgattga taatggttat 
aatacaccaa caaagtatgg cactgatggt 
catgctaata tgcaagttat ggctgacgtt 
aaagaagttg tttcagcaac acgagcaggt 
ggaacgcaac tctatgtgac taactccgtt 
ggacaatact tagaagctct gaaagcaaag 
gattattggt ataagaacta tgcaaatgat 
ggtgaccgtg aatctatccc agcagatgtt 
aacggcacga acgttttggg caatggtatg 
caatatttca agcttgatgg tgataaatca 



gccttagtgt cattaatgac ggctcgtaaa 7260 
gttgacaatc atggtttgtt gaagagtgtc 7320 
gatttaggta catcagctac gcgtactgag 7380 
aagttgcaac ttaatgattc ggataaagtg 74 40 
caaaagtatc gcgcagttat cttaacaaca 7500 
caagcaccaa cagcttggac aaacgatcaa 7560 
aacgggcaag acaatacaca aattcgtggt 7620 
gctgtttggg tgcctgtggg tgcatcagac 7680 
acagaaaatc atgatggtaa agtattacac 7740 
tatgaaggtt tctctaactt ccaacctaag 7800 
gtaattgcta aaaatgccga tgtcttcaat 7860 
ccacagtacc gttcaagtgg ggaccataca 7920 
gccttcactg atcgctatga cttaggtttc 7980 
gatttgcgtg caacgattca agcgctacat 8040 
gttgataacc aggtctataa cttacctggt 8100 
gtttatggta atgacgacgc cacgggcttt 8160 
ggtggtggtc aataccaaga gaaatatgct 8220 
tatccagacc tctttgaggg taaggcctat 8280 
gggtcaaatc cttactatac attgtcacac 8340 
gctattaagc aatggtcagc taagtatatg 8400 
ggttatgtat tgaaggattg gcataatggt 84 60 
acattacctc aaattt 8506 



<210> 5 
<211> 8931 
<212> ADN 
<213> Gene dsr-D 

<400> 5 

aataatctgt ctccattgct ttcaaaataa 
atattttatt tatattcact attgaatatc 
tttgggttat acaatgaatt ggtaaaggtt 
tattttttct aaaattaccg aactagagga 
catgagggta atttgtgacc gtaaaaaatt 
cggtattttt gctttgatga tgtttggcgt 
tgcagttgac acgaatcata gccgtacttc 
ggttaatgat gacaagacta ctttaggagc 
agcgacaccg gtagcagata aaacagtaag 
aacgtcatca acgacacctg caacggataa 
agcagataag gcagtagata caacgccaac 
aacgccaacg acacctgcag caaataaagc 
agataaggcg gtagccacgc cagccacacc 
tgcaacggac aaggcagtag ccacaacgcc 
cacgagtagt attcatgatc aaccattaga 
cctcgtctcg acaacacaaa aaagtacgga 
tcatcttcaa gaaatcaacg gtaaaaccta 
gaacttcacc gctattattg acggtaaagt 
gaccgcaaat gcaccgcaag ttactaaggg 
ggctcatgat ctcacagctg ataacttcac 
ttggtatcgt cctaaggaca tcttaaaaaa 
agattttcga ccattgctca tgtcttggtg 
acaatatatg caatcagttg gtatgctacc 
tatgagcaca ttgactgatg ctgctatgac 
tgtatctgga aaaactgatt ggctcaagca 
aaattggaat attgatagtg aatcaaaggg 
atatgtgaat gatgacaaaa cacctaacgc 
accaaccaac caaaccggcc aaattactga 
attagctaat gatgrtgata attctaaccc 
tcactacatg atgaacattg gtactatagc 



taatagttaa ttattatcat ggaacaatca 60 
cttttttgca taaatctcta gagccgattt 120 
aatcattttt acaaaaccat ggtggttttt 180 
agagaaaagg agcaatagtt gtatgagaga 240 
gtacaaatcg ggcaaagtac tagtaacagc 300 
cacaactgct agtgttagtg caaatacgat 360 
agcacagatt aataagagtg ccgttgataa 420 
ggcaaaagta gtggcagtag ccacaacgcc 480 
tgcacccgca gcagataagg cagtagatac 540 
ggcagtagat acaacgccaa cgacacctgc 600 
gacacctgca gcagataagg cagtagatac 660 
agtagataca acgccagcga ccgctgcaac 720 
tgcagcagat aagctagcaa atacgacgcc 780 
agcgacgccg gtagcaaata aagcagcaga 840 
tacaaatgtg ccaactgata aatcagcaaa 900 
taatcaacaa gttaagtcta cagaaacatc 960 
ttttcttgac gacaatggtc aagttaaaaa 1020 
tctatacttt gataaaacat ccggcgaatt 1080 
attagtaaat attgataatg cacataacgc 1140 
aaatgtcgat ggttacttaa cagctaacag 1200 
cggaacgacc tggacaccaa caacagcaga 1260 
gccggataag aatacgcagg tagcttatct 1320 
tgacgatgtt aaagtatcaa atgatgataa 1380 
tgttcaaaag aatatcgaat cgcgaattgg 1440 
agatatgaac aaactgattg attcacaggc 1500 
taatgatcat ttacagggtg gggcattgtt 1560 
gaactcagat taccgtctgt taaaccgtac 1620 
tccaagtaaa caaggtggat atgagatgtt 1680 
tgttgtacaa gctgagcaat tgaactggct 1740 
tcagaacgac ccaacagcta attttgacgg 1800 
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ttatcgtgtt gatgcggttg ataacgttga tgccgatctc ttacaaattg ctggtgatta 1860 
ctttaaagct gcatacggta ctggtaaaac tgaggcaaac gcaaacaatc atatttcgat 1920 
cttggaagat tgg.gataata atgattctgc gtacattaaa gcccacggga ataaccaatt 1980 
gacaatggat tttccagcac- acttggcttt gaaatacgcc ttgaacatgc ctcttgccgc 2040 
acaaagtggc ctagaaccgc taattaatac aagtcttgtt aagcgtggga aagatgccac 2100 
agaaaatgaa gcacaaccaa actatgcctt tatccgtgcc catgatagtg aagtgcagac 2160 
cgttattgca caaattatta aggataaaat taacacaaaa tcagacggct taactgtaac 2220 
accagatgag attaagcaag ctttcactat ttacaacgcc gatgaattaa aagcagataa 2280 
ggaatataca gcatacaata ttcctgcttc ttacgctgta ttgttgacaa acaaggatac 2340 
tgtgccacgt gtttattatg gtgatctatt ttctgatgat ggacagtata tgtcacagaa 2400 
gtcaccatac tatgacgcca ttacgtcact tttgaaaagc cgtatcaaat atgttgctgg 2460 
tggtcaaagt atgaatatga cgtacttgca tgagtgcttt gatccagcaa aaaatgagac 2520 
aaagccacaa ggtgtcttaa* catcagtacg ttacggtaaa ggtgcgatga cggctgacga 2580 
tttgggtaat agtgacacac gtcaacaagg tattggtttg gtgattaata ataagccatt 2640 
cttgaattta aatgatgatg . aacaaattgt gctcaatatg ggtgctgctc acaaaaatca 2700 
agcttaccga ccacttatgt tgacaacaaa atctggtctt caaatttacg ataaggatgc 2760 
cggagcgcca gttgtttata ctaacgatgc tggtcaactt atttttaagt cagatatggt 2820 
ctatggtgtc agcaatccac aggtatctgg ttattttgct gcatgggtac cagtcggtgc 2880 
gagtgatagt caagatgcta gaacacaaag cagccagtca gaaactaagg atggcgatgt 2940 
ctatcattca aatgctgcgc ttgattctaa tgtgatttat gaaggcttct cgaatttcca 3000 
agcaatgcct gaaaagaatg atgacttcac caacgtaaaa attgctcaaa atgctaaatt 3060 
gtttaaagat ttagggatta caagctttga attagcaccg caatatcgtt caagtacaga 3120 
taatagtttt ttggattcgg ttatccaaaa cggctatgcc tttactgatc gatatgatgt 3180 
tggctataat acgccaacaa aatatggtac agttgatcaa cttctagata gtctaagagc 3240 
attacacgca caaggtattc aggctattaa tgactgggta cctgatcaaa tttataattt 3300 
acctggcgaa caaatcgtca ccgcagttcg tacaaatggt tcaggtaagt acgattatga 3360; 
ttcagtgatt aataacacgc tctatgattc acgaacagtt gggggcggcg aataccaaga 3420 
aaagtttggt ggcctgttct tagaccagtt gaaaaaagat tatcctagct tgtttgaaac 3480^ 
taagcagata tcaacgaatc agccgatgaa tccggatgtt aaaattaaag aatggtctgc 3540-' 
aaagtacttt aatggttcaa acattcaagg tcgtggcgct tggtatgtac ttaaagactg 3600; 
ggcaacaaat caatatttca atgtgtctag tgataatgga ttcttgccta aacagttact 3660 
gggtgaaaaa acaagcaccg gctttataac agaaaatggt aagacttctt tctactcaac 3720 
aagtggttat caagctaaag atacctttat tcaagatgga acaaattggt attactttga 3780 
taatgcaggc tatatgttga caggtaaaca aaatatccac gataaaaatt attatttctt 3840^ 
acctaatggt gtggaacttc aagatgctta cctttttgat ggtaatcaag aattttacfa 3900^ 
taataaagct ggggaacaag ttatgaacca gtattatcaa gatagtcaaa atcaatggca 3960; 
ttatttcttt gaaaatggtc gcatggcaat tggcctgaca gaagttccga acgctgatgg 4020,- 
cacccatgtt acacaatatt ttgatgctaa tggtgtccaa attaaaggca cagctataaa 4080" 
agatcagaat aatcaattac gctattttga tgaggccaca ggtaatatgg tggttaattc 4140 
atggggacag ttagcagata agtcttggct ttaccttaat gcacaaggcg ttgctgtgac 4200 
tggtaaccaa aaaattgatg gtgaagagta ctacttcaat gctgatggta agcaagttaa 4260 
aggcaatgca atcatcgata ataatggtga tcaacgttat tatgatggtg ataagggtgt 4320 
catggtagtt aattcatggg gtgagttgcc agatggctca tggttatatt tgaatgacaa 4380 
aggtattgct gtaacaggcc gtcaagtcat taataatcaa gttaatttct ttggtaatga 4440 
tggtaagcaa atcaaagatg cctttaaatt attatccgat ggttcatggg tgtatttgga 4500 
tgataagggc ctgataacaa ctggagccaa agttatcaat ggtctaaata tgttttttga 4560 
taaagacggt catcaaatca aaggtgatgc cagcacggat gccaatggta agcgccatta 4620 
ttatgacaaa aatgatggtc atcttgtcac aaattcatgg ggtgagttgc cagatggttc 4680 
atggttatat ctagaagaac aaggtgatgc tgttactggt caacgtgtga ttgatggcaa 474 0 
gacacgctat tttgatgaag atggcaaaca aattaaaaat agcctaaaaa cgctggccaa 4800 
tggcgataag atttatcttg atggtgatgg ggttgctgca acaggcttac aacatgtggg 4860 
cgataaaatc atgtattttg atgaagatgg caaacaagtt gttggcaagt ttgtatcagc 4920 
aaaagatggt tcatggtatt acttaaatca ggatggtgtt gccgcggttg gtccaagcag 4980 
cattaatgga caatcacttt actttgatca agatggtaaa caagttaaat ataatgaagt. 5040 
tcgtaatagt gatggaacaa ccaactatta cacaggatta acgggtgaaa agttaacgca 5100 
agacttcggt gaactaccag atggttcatg gatttatctt gatgcgcaag gtcatacagt 5160 
aactggtgca caaatcatta acggtcaaaa tctttacttt aaggctgacg gccagcaagt 5220 
taaaggtcat gcttatactg accaattagg tcatatgcgt ttttatgatc ctgattcagg 5280 
tgatatgttg agtaatcgct ttgaacaaat cacacctggt gtatgggctt actttggtgc 5340 
tgatggtgtg gccataactg gacaacatga cataaatggt cagaagctat tctttgatga 5400 
gacaggatat caagttaaag gttcgcaacg tacaatagat ggtacgttat acagcttcga 5460 
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re?ue le 23/10/01 



ttctcaaact 
tatcacgaaa 
gcgtcaagat 
aggccaattt 
gcagttattg 
agacaccaaa 
aaatatcaat 
cgtagcaaag 
caccgtagca 
cgcagataag 
ctttgataac 
gtactatttt 
tactaatgct 
tactgttgat 
cgggacaact 
gccaaataag 
aacagcagca 
tgttcaagtg 
attgttgttt 
caaggattct 
tggcaataac 
tgatttcttg 
aaactggtta 
ttttgatagt 
ttatgattat 
catttcattg 
aattgagtca 
taaaccattg 
gcagaat agt 
aggtgtgcaa 
ctt tacagat 
aaacaaaaag 
agatact gtt 
aaacaagagt 
cagcggtggt 
aaaagatgcg 
tgtcattatt 
tatgggt gca 
tttggcaacc 
aacattctca 
tccgcaagtt 
tgcccgtaca 
ggcattagat 
gcatgatgaa 
tattacgagt 
ttcaacgatt 
aacaaagtat 
tatgcaagtt 
tgttt cagca 
actctatgtg 
cttagaagct 
gtataagaac 
tgaatctatc 
gaacgttttg 
caagcttgat 
ttatcttatc 
tcgt ctgtaa 
acaattgtca 



ggtaaccaaa 
aatggtaacg 
agcaatggta 
gttacaattg 
ccaatggtca 
acagcctggg 
ggcacgttgc 
tatgacgaca 
ggtgactatc 
caaaatcagc 
gctactggta 
gacgataaag 
ttttctacca 
ggcttcttga 
tggcgtgatt 
aatgttcaag 
caatacacac 
gccattgaaa 
gaatcacaaa 
gaatatcatg 
ccactcacac 
ctagccaacg 
cattacttaa 
attcgtattg 
cttcgtgatg 
gttgaagctg 
aacctccgtg 
acgaatatgc 
acagaaaatc 
gaaaaagtag 
gaacagttaa 
tataatagtt 
cctcgtatgt 
atctactatg 
caaactatga 
atgacagcta 
ggtaatgatc 
gcacataaaa 
tttaattcag 
aatcaagaga 
tctggttatc 
gcagcaacga 
tctaacctta 
cttacgaacg 
tttgaaatgg 
gataatggtt 
ggcactgatg 
atggctgacg 
acacgagcag 
act aactccg 
ctgaaagcaa 
tatgcaaatg 
ccagcagatg 
ggcaatggta 
ggtgataaat 
aaattgtagt 
agctatgcta 
acacccacgg 



aacgcgtaca 
attggcagta 
agttgcgtta 
gccaagaaac 
ctgaagggca 
tttaccgtga 
aattctttga 
agctctttta 
aggatggtca 
ttgtaaaggg 
accaaataaa 
gcaatggtga 
aaaatgttgc 
cggcagatac 
cgactgataa 
tcaactacct 
tacattcaga 
ggcgcattgc 
ataataaccc 
gtggtggtga 
caacaactaa 
acgt ggataa 
tgaactttgg 
acgctgtcga 
cttatcaagt 
gcttagacgc 
aagcagcgac 
tacaagacgt 
aggcgacacc 
gtgcagccat 
aagccggatt 
ataacatacc 
attatgggga 
atgccttagt 
gtgttgacaa 
atgatttagg 
caaagttgca 
atcaaaagta 
atcaagcacc 
ttaacgggca 
tagctgtttg 
caacagaaaa 
tttatgaagg 
ttgtaattgc 
caccacagta 
atgccttcac 
gtgatttgcg 
ttgttgataa 
gtgtttatgg 
ttggtggtgg 
agtatccaga 
atgggtcaaa 
ttgctattaa 
tgggttatgt 
caacattacc 
gacaaaagtc 
taataacgt t 
tattcgtggc 



gacaacattg 
tgataccaat 
ctttgatttg 
ttattacttt 
ttacggtaca 
tcaaaataat 
tccatataca 
ctttgaatca 
ttatatttcc 
acttgttact 
aaatcaacaa 
atacttattc 
attcaatcat 
ttggtatcga 
ggatatgcga 
caacttcatg 
tcaatatgat 
gtcagagcat 
atcatttgtg 
tgcttggttc 
ttctgattat 
ttctaatcct 
caccatcact 
ctttattcat 
gcaacaaagt 
aggtacatca 
attgtcgtta 
tgacggcggt 
aaactattca 
tactgatgct 
agagctattc 
aagtatttat 
tatgtatcaa 
gtcattaatg 
tcatggtttg 
tacatcagct 
acttaatgat 
tcgcgcagtt 
aacagcttgg 
agacaataca 
ggtgcctgtg 
tcatgatggt 
tttctctaac 
taaaaatgcc 
ccgttcaagt 
tgatcgctat 
tgcaacgatt 
ccaggtctat 
taatgacgac 
tcaataccaa 
cctctttgag 
tccttactat 
gcaatggtca 
attgaaggat 
tcaaatttaa 
gcagatattg 
atgacaaaag 
gaagtgaaga 



ttgccacaag 
ggtgaactag 
acaaccggca 
agtaaagatc 
ataacactca 
actattttga 
ggtgaacaac 
ggtaaaggta 
caagatggcc 
gttaatgggg 
gttattgttg 
actaatacat 
gacagtagca 
ccaaagtcaa 
ccattaatca 
aaagcaaatg 
ttgaaccaag 
ggcacagact 
aagcaacaat 
caaggtggtt 
cgtcaacctg 
gttgtgcaag 
gcgggtcaag 
aatgatacaa 
gaagccaaag 
acgattcata 
acaaatgaac 
acgcttatca 
attattcacg 
actggtgctg 
tataaggatc 
gccctgatgt 
gatgacggac 
acggctcgt a 
ttgaagagtg 
acgcgtactg 
tcggataaag 
atcttaacaa 
acaaacgatc 
caaattcgtg 
ggtgcatcag 
aaagtattac 
ttccaaccta 
gatgt ctt ca 
ggggaccata 
gacttaggtt 
caagcgctac 
aacttacctg 
gccacgggct 
gagaaatatg 
ggtaaggcct 
acattgtcac 
gctaagtata 
tggcataatg 
tttattttga 
aatccaatat 
aaaattattt 
ttatggatat 



caggtcacta 
cgaagggtct 
tacaagcgaa 
acggggatgc 
agcaaggtca 
agggattgca 
ttaagggtgg 
atcttgttag 
aaacacgtta 
cattacaata 
atggcaagac 
tagatatgtc 
gtttcgacca 
ttttggctaa 
ctgtttggtg 
gcttgttgac 
ctgcacaaga 
ggttacagaa 
tcatttggaa 
atctgaagta 
gtaatgcatt 
ctgaaaactt 
atgacgctaa 
tccaacgtac 
caaaccagca 
atgatgcgtt 
ctggtaaaaa 
ccgaccatac 
cgcacgataa 
attggacgaa 
agcgcgcaac 
tgacaaacaa 
agtatatggc 
aaagctatgt 
tccgttttgg 
agggtcttgg 
tgacactgga 
cacgtgatgg 
aaggaacgtt 
gtgttgctaa 
acaatcaaga 
actcgaatgc 
aggcaacaac 
ataattgggg 
cattcttgga 
tcaatacacc 
atcatgctaa 
gtaaagaagt 
ttggaacgca 
ctggacaata 
atgattattg 
acggtgaccg 
tgaacggcac 
gtcaatattt 
tagggaacga 
ctgcgacttt 
taaagttggc 
c 



5520 
5580 
5640 
5700 
5760 
5820 
5880 
5940 
6000 
6060 
6120 
6180 
6240 
6300 
6360 
6420 
6480 
6540 
6600 
6660 
6720 
6780 
6840 
6900 
6960 
7020 
7080 
7140 
7200 
7260 
7320 
7380 
7440 
7500 
7560 
7620 
7680 
7740 
7800 
7860 
7920 
7980 
8040 
8100 
8160 
8220 
8280 
8340 
8400 
8460 
8520 
8580 
8640 
8700 
8760 
8820 
8880 
8931 
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regue le 23/10/01 



<210> 6 ~' 
<211> 17 
<212> PRT 
<213> Peptides 

<400> 6 t t ■ t 

Ala Asn Trp Asn He Asp Ser Glu Ser Lys Gly Asn Asp His Leu 
1 5 10 15 



Gly 



<210> 7 
<211> 24 
<212> PRT 
<213> Peptides 



Gly Gly Tyr Glu Met Leu Leu Ala Asn Asp Val Asp Asn Ser Asn 
1 - 5 10 15 

Val Val Gin Ala Glu Gin Leu Asn 

' " 20 



<210> 8 : 1 

<211> 21\ m 

<212> PRT ; - • * 

<213> Peptides ■ . 

<400> 8 ■ n 
Ala Asn'Phe Asp Gly Tyr Arg Val Asp Ala Val Asp Asn Val Asp Ala 
1 5 10 15 

Asp Leu Leu Gin He 

20 ■ 



<210> 9 
<211> 12 
<212> PRT 
<213> Peptides- 

<400> 9 

His He Ser He -Leu Glu Asp Trp Asp Asn Asn Asp 
1 5 10 



<210> 10 
<211> 15 
<212> PRT 
<213> Peptides 

<400> 10 

Tyr Ala Phe He Arg Ala His Asp Ser Glu Val Gin Thr Val He 
15 10 15 
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regue le 23/10/01 



<210> 11 
<211> 8 
<212> PRT 
<213> Peptides 

<4O0> 11 

Asp Trp Val Pro Asp Gin He Tyr 
1 5 



<210> 12 
<211> 19 
<212> PRT 
<213> Peptides 

Phe°ile 2 Trp Asn Lys Asp Ser Glu Tyr His Gly Gly Gly Asp Ala Trp 
1 5 10 I 5 

Phe Gin Gly 



<210> 13 
<211> 24 
<212> PRT 
<213> Peptides 

<400> 13 

Asn Ala Phe Asp Phe Leu Leu Ala Asn Asp Val Asp Asn Ser Asn 
1 " 5- 10 15 

Val Val Gin Ala Glu Asn Leu Asn 
20 



<210> 14 
<211> 13 
<212> PRT 
<213> Peptides 

<400> 14 

Ala Asn Phe Asp Ser He Arg He Asp Ala Val Asp Phe 
15 10 



<210> 15 

<211> 8 

<212> PRT 

<213> Peptides 

<400> 15 

His lie Ser Leu Val Glu Ala Gly 
1 5 
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regue le 23/10/01 



<210> 16 
<211> 8 
<212> PRT 
<213> Peptides 

<400> 16 

Tyr Ser He He His Ala His Asp 
1 5 



<210> 17 
<211> 8 
<212> PRT 
<213> Peptides 

<400> 17 

Asp Val Val Asp Asn Gin Val Tyr 
1 5 
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